火车头采集

当前位置：147SEO SEO教程火车头采集

火车头采集

火车头采集，适合小白站长，零编程基础采集，创建任务填入要采集的网址，选择字段就可以方便的采集数据。火车头采集可以自动识别字段也可以手动选择字段，并且字段数据可以用Javascript编程处理，可以扩展库，使处理数据更加灵活。传统的采集软件只能采集页面中的元素，火车头采集不但可以采集页面元素，还可以获取浏览器请求中获取的连接地址，可以方便地采集音频、视频等。

火车头采集.png

火车头采集可以实现登录与否都可采集、加密与否都可采集、动态与否都可采集、图片文字都可采集。规则简单模拟手工操作，列表规则智能一键生成，复杂规则现成模板支持。全能可视化页面选择助手，规则定时定量采集，批量地址自动采集，多种自动翻页采集，数据智能去重处理，规则并行加速采集。跨网站数据采集处理，多规则数据流协同，强大灵活的指令集。

火车头采集设置.png

火车头采集是网页数据采集工具，火车头采集拥有强大的内容采集和数据过滤功能，能将网站采集的数据发布到远程服务器。火车头采集基于JAVA语言开发，是平台无关的可以在任何系统上运行。火车头采集采用分布式架构可以轻易的部署爬虫集群。

火车头采集发布.png

火车头采集分WEB服务端和EXE应用，WEB服务端不干预EXE应用的逻辑只为EXE应用提供可视化的操作界面。EXE应用完全由用户部署管理，通过WEB服务端对EXE应用的接入，火车头采集可以对EXE应用进行可视化的管理，如：可视化的规则配置、实时采集日志查看，可配置多种版本的采集规则。

火车头采集发布设置.png

火车头采集提供采集规则有效性的检测功能(网页变动监控)，支持错误发送邮件通知。提供同步采集API，可以异步采集方式。提供数据查询API，可以JSON、RSS(快速创建自己的Feed)的数据返回格式。可以并发速率配置。提供定时、循环多种采集计划任务配置。提供控制台实时查看采集日志，可以日志文件查看。

火车头采集可以分布式爬虫部署，支持按爬虫速率、随机选择，顺序选择的负载均衡方式。提供采集任务的备份与恢复功能。提供嵌套采集功能，解决数据分布在多个页面的情况。循环匹配支持数据合并功能，解决一篇文章分成多页的情况。火车头采集支持正则、XPath、CSSPath多匹配方式。提供基于 XPath 的可视化配置功能。提供网址抓取插件、数据过滤插件、文件保存插件、数据发布插件四种插件，让火车头采集适应更多更复杂的需求。

火车头采集

转载请说明出处内容投诉
147SEO » 火车头采集

访客

分享到：

访客

发表评论

一个令你着迷的主题！