火车头采集

火车头采集

火车头采集,适合小白站长,零编程基础采集,创建任务填入要采集的网址,选择字段就可以方便的采集数据。火车头采集可以自动识别字段也可以手动选择字段,并且字段数据可以用Javascript编程处理,可以扩展库,使处理数据更加灵活。传统的采集软件只能采集页面中的元素,火车头采集不但可以采集页面元素,还可以获取浏览器请求中获取的连接地址,可以方便地采集音频、视频等。

火车头采集.png

火车头采集可以实现登录与否都可采集加密与否都可采集动态与否都可采集图片文字都可采集规则简单模拟手工操作列表规则智能一键生成复杂规则现成模板支持全能可视化页面选择助手规则定时定量采集批量地址自动采集多种自动翻页采集数据智能去重处理规则并行加速采集跨网站数据采集处理多规则数据流协同强大灵活的指令集

火车头采集设置.png

火车头采集是网页数据采集工具火车头采集拥有强大的内容采集和数据过滤功能,能将网站采集的数据发布到远程服务器。火车头采集基于JAVA语言开发,是平台无关的可以在任何系统上运行。火车头采集采用分布式架构可以轻易的部署爬虫集群。

火车头采集发布.png

火车头采集分WEB服务端和EXE应用,WEB服务端不干预EXE应用的逻辑只为EXE应用提供可视化的操作界面。EXE应用完全由用户部署管理,通过WEB服务端对EXE应用的接入,火车头采集可以对EXE应用进行可视化的管理,如:可视化的规则配置、实时采集日志查看,可配置多种版本的采集规则。

火车头采集发布设置.png

火车头采集提供采集规则有效性的检测功能(网页变动监控),支持错误发送邮件通知。提供同步采集API,可以异步采集方式。提供数据查询API,可以JSON、RSS(快速创建自己的Feed)的数据返回格式。可以并发速率配置。提供定时、循环多种采集计划任务配置。提供控制台实时查看采集日志,可以日志文件查看。

火车头采集可以分布式爬虫部署,支持按爬虫速率、随机选择,顺序选择的负载均衡方式。提供采集任务的备份与恢复功能。提供嵌套采集功能,解决数据分布在多个页面的情况。循环匹配支持数据合并功能,解决一篇文章分成多页的情况。火车头采集支持正则、XPath、CSSPath多匹配方式。提供基于 XPath 的可视化配置功能。提供网址抓取插件、数据过滤插件、文件保存插件、数据发布插件四种插件,让火车头采集适应更多更复杂的需求。


转载请说明出处
147SEO » 火车头采集

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买
×

服务热线

微信客服

微信客服