指定网站登录采集内容教程
快捷导读
有很多网站,是需要登录账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。针对这类网站,本文将详细讲解!
针对需要登录才能采集的网站,我们打开采集批量管理,点击新增指定采集任务,如图所示前往设置登录
输入登录网址点击刷新,打开网页后和用普通浏览器访问网页完全一样,只需要输入账号密码登录。
列表是最常见的网页样式,我们可以通过以下2种方式:
(1) 直接输入列表页详细如下图
(2)通过我们软件生成列表页详细如下图
以上是举例说明:
目标站列表页:http://zb.bbqseo.com/?cate=2&page=6 当我们点击下一页时网址变化为: http://zb.bbqseo.com/?cate=2&page=7
由此可以分析得出,page=6中的数字就是分页码,且是每次加1递增。(变化的部分的数字我们用“[[分页数]]”代替)根据目标站具体列表页数生成,需这些网址间有着某种关系,比如等差递增的变化。
软件上填写:http://zb.bbqseo.com/?cate=2&page=[[分页数]] 目标站有多少列表页就生成多少页
我们可以根据自身的需求去点选我们需要采集的字段,我们也可以随时对这些字段进行修改、删除!
当我们点击列表页标题后,软件会自动识别该网页下的所有标题,我们只需要点击预览并设置内容 (注:未识别网页下的所有标题,我们可用CSS选中器来识别网页下的所有列表标题)
现在,我们已经处于登录状态,通过正常浏览需要登录才能看见的内容,这个时候我们只需要选中内容,登录可见的内容也会采集进去。
注:点击空白处,观察内容是否全部包含。(部分网站不规范导致点选内容不全面或标题内容连在一起,我们可用CSS选中器来识别网页中的标题和内容)
批量采集管理任务找到配置好的任务点击开始采集,我们也可以实时预览或修改已经采集的内容
相关文章:CSS选择器案例
147SEO » 指定网站登录采集内容教程