火车头采集规则
火车头采集规则,是很多站长在网站采集的时候需要用到的一种方式。但是随着互联网的发展,通过自定义写采集规则会显得越来越麻烦以及低效率。使用火车头采集规则的站长一定是对网站采集有着强烈的需求,那么怎么完成网站内容的采集呢?就是接下里我要说的,火车头采集规则实现方法,免规则,简单高效,无需看全文,着重看文章内的图片就好了。【看图一,火车头采集规则,永久免费】
使用火车头采集规则采集有分页的数据 分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到。火车头采集规则采集要点:采集规则要对每个分页都适用,分页规则如果是全部列出,只要第一个页面的分页规则就可以了。如果是上下页,每个页面的分页规则也要都适用。【看图二,火车头采集规则,批量自动采集发布】
我们先看一下,如果分页有两个,前一页[1] [2]下一页,火车头采集规则要做的是要使所写的规则在两个页面中都可以正常采到内容,写个规则,测试第一页,成功获取内容,然后改写网址为第二个,测试,同样可以获得我们要的内容,那么,说明这一步你已经成功了。进入下一步。火车头采集规则这样来写的,两个页面都通过。【看图三,火车头采集规则,一键设置,高效简单】
现在我们看分页这里的火车头采集规则设置,全部列出是在第一页或每一页上都有全部的颁布文章的网址,上下页是没有将全部的列出。我们这个规则里选全部列出。因此,我们只要在火车头采集规则第一页里找好包含所有网址的区域就可以了。【看图四,火车头采集规则,采集必备】
<td width="555" colspan="3">
<span style="color:#999999">前一页</span>
<a href="/graphics/hq/gz/0802/1226877.html" >
[<span style="font-weight: bold">1</span>]</a>
<a href="/graphics/hq/gz/0802/1226877_1.html" >[2]
</a> <a href="/graphics/hq/gz/0802/1226877_1.html" >
下一页</a> </td>
注意,火车头采集规则只能采集代码,不能下载文件.因为这个标签数据是在网址列表里获得的,在测试规则时无法对它进行编辑,也就是无法执行一些过滤替换操作,设置完成后,文章内容采集界面就自动列出我们在列表页设置好的标签。
火车头采集规则就不多说了,比较简单,今天关于火车头采集规则的采集和设置就写到这里。这里就不说更多采集规则了,只是说一下火车头采集规则采集文件的具体配置该如何设置,具体操作主要是在“内容采集规则”里面进行设置,可以通过图片内来结合阅读。