火车头采集v9图文教程

火车头采集v9图文教程

火车头采集v9图文教程,基础小白的话可以多参考图片。在使用火车头采集器之前你需要有基本的HTML基础,能看得懂网页源码,网页结构。 同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了解。 如果您相关基础薄弱,则需要花费更多的时间学习相关知识并多看才可以掌握程序的使用。小白如果没有更多的时间或者基础相当薄弱可以使用更简单的采集器详细如图,只需要鼠标点几下!!!!

147SEO可视化采集器.jpg

1. html基础 了解网页的基本知识,帮助分析网页结构

2.  正则表达式的使用

3.  Http协议的相关知识 Http请求抓包的方法

4.  Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo数据库的使用

5.  代理服务器,FTP服务器相关知识

6.  常见的SQL语句

7.  插件需要PHP或C#编程功底的支持

8.  Apache或IIS服务器架设,网站的安装

147采集界面.jpg

Web在线发布

①打开Web发布配置

②选择发布模块

③对发布模块 编辑,新建,删除,导入,导出 操作

④网页编码:与要发布的网站编码,保持一致

⑤全局变量:可以在发布模块中所有位置使用,方便设置和修改某些参数。

⑥网站地址:一般指网站域名,实际操作中根据发布模块里的地址做实际调整,

                     需和模块里的地址组合成一个完整的绝对地址

⑦登录方式:分3种,内置浏览器登录,数据包登录,不登录。

输入关键词即可采集.png

内置浏览器登录:获取浏览器标识和用户信息。

数据包登录:填写用户名,密码以及获取到的验证码后登录。

          此种方法需要发布模块里 `网站自动登录` 有对应设置。

不登录:一般对接不需要登录,或者免登陆发布接口使用。

⑧获取列表:可刷新出栏目ID 和栏目名称。需要发布模块里 获取栏目列表 有对应设置

⑨Web发布配置列表:管理所有的Web发布配置

具体的发布模块制作教程,请参考后续视频教程

147发布.jpg

其他

分析查看源代码,分析得到:

主题内容开始字符串为id="postmessage_649823"> 因为不同的帖子,ID不同,

所以我们把649823这个数字设置为(*)通配符.

即开头字符串为id="postmessage_(*)">

结尾字符串为</td></tr></table>

然后勾选下图中的循环匹配,即可实现主题和回复的内容采集。

数据采集2.png

 

 


转载请说明出处
147SEO » 火车头采集v9图文教程

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买
×

服务热线

微信客服

微信客服