后羿采集器怎么用?后羿采集器教程?

后羿采集器怎么用?后羿采集器教程?

后羿采集器怎么用?后羿采集器教程?相信用过后羿采集器的朋友们都知道,后羿采集器是需要一定的编程能力,不然很难用好后羿采集器,这里为了照顾更多不懂的小白朋友分享一款免费的采集器。只需要输入域名,点选你需要采集的内容,就轻松地完成了数据采集,详细参考图片。本期教程为后羿采集器更多的是介绍后羿采集器的教程。


如果自动识别效果不符合您的要求,您可以通过“手动点选列表”和“编辑列表Xpath”两种方式来修改识别结果。


手动点选列表的操作步骤如下:

后羿采集器教程第一步:点击“手动点选列表”的选项

后羿采集器教程第二步:点击网页中列表的第一行的第一个元素

后羿采集器教程第三步:点击网页中列表的第二行的第一个元素

但是偶尔也会发生识别结果错误的情况,原因通常包括以下几种:

(1)网页加载速度过慢,软件自动识别结束之后才出现分页按钮

(2)页面中存在多个分页按钮,软件最终只会选择其中的一个

(3)在滚动加载和分页按钮同时存在的情况中,软件自动滚动多次之后分页按钮仍未出现。


(4)当前页面中的分页按钮软件暂时未兼容

后羿采集器教程适合一开始没有分页按钮,需要通过滚动网页多次后才能加载出分页按钮的网页,或者已经显示了下一页按钮,但是当前网页内容未展示完毕,需要滚动网页多次后才能显示当前网页的全部内容。

这种分页类型比较难识别,尽管软件在自动识别时会尝试自动滚动,但是这个滚动的次数和当前网页所需的滚动次数可能不一致,所以这种类型的分页通常需要加入一些人工操作。


主要分为以下几种情况:

第一种:识别出滚动加载,但是未识别出分页按钮

后羿采集器教程合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔符部分直接设置为空白就好。如果要修改字段中提取的内容,或者在添加新字段时进行提取对象的设置,可以点击“在页面中选择”或者字段上的瞄准器图标,然后在网页中点击需要的数据


Xpath一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据在网页中的位置。有编程基础的用户可以使用此功能进行采集对象的定位。

不同的数据需要设置不同的取值属性,在设置新字段的时候,字段的取值默认的是文本字段,一般情况下,在您选取新数据时,后羿采集器会自动帮你判断好字段属性,您不需要另外设置,但如果出现判断失误的情况下,您可以自己设置字段的取值属性。

后羿采集器教程提取文本:适合普通的文本数据

后羿采集器教程提取内部HTML:适合提取不包括内容自身的HTML

后羿采集器教程提取外部HTML:适合提取包括内容自身的HTML

后羿采集器教程提取链接地址:适合提取链接的数据


后羿采集器教程提取图片等媒体地址:适合提取图片等媒体资源

后羿采集器教程提取输入框内容:适合提取输入框的文字,多用于关键词采集时使用

后羿采集器教程在数据采集过程中,如果需要采集一些特殊字段,如采集时的时间、当前网页标题、当前网页URL等,这些字段无法直接在网页中提取,那么可以使用“改为特殊字段”功能进行字段设置,通常我们会新建字段,然后把字段改为特殊字段,我们也可以直接把其他字段改为特殊字段。


在设置采集任务的过程中,有时候我们会遇到一些不需要采集的数据,如某些数值为空的数据或者包含某些字符的数据,后羿采集器教程从而在一定程度上影响了采集速度和效果,针对这种情况我们可以使用数据筛选功能,避免采集到无效数据。

后羿采集器教程流程图模式中,“数据筛选”功能在提取数据组件菜单栏的右上角,,点击之后会打开筛选条件设置窗口,如下图所示。(如果流程图中有多个提取数据组件,数据筛选是共享的,在任意一个提取数据组件中打开设置都可以)


转载请说明出处
147SEO » 后羿采集器怎么用?后羿采集器教程?

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买
×

服务热线

微信客服

微信客服