火车头采集
火车头采集,适合小白站长,零编程基础采集,创建任务填入要采集的网址,选择字段就可以方便的采集数据。火车头采集可以自动识别字段也可以手动选择字段,并且字段数据可以用Javascript编程处理,可以扩展库,使处理数据更加灵活。传统的采集软件只能采集页面中的元素,火车头采集不但可以采集页面元素,还可以获取浏览器请求中获取的连接地址,可以方便地采集音频、视频等。
火车头采集可以实现登录与否都可采集、加密与否都可采集、动态与否都可采集、图片文字都可采集。规则简单模拟手工操作,列表规则智能一键生成,复杂规则现成模板支持。全能可视化页面选择助手,规则定时定量采集,批量地址自动采集,多种自动翻页采集,数据智能去重处理,规则并行加速采集。跨网站数据采集处理,多规则数据流协同,强大灵活的指令集。
火车头采集是网页数据采集工具,火车头采集拥有强大的内容采集和数据过滤功能,能将网站采集的数据发布到远程服务器。火车头采集基于JAVA语言开发,是平台无关的可以在任何系统上运行。火车头采集采用分布式架构可以轻易的部署爬虫集群。
火车头采集分WEB服务端和EXE应用,WEB服务端不干预EXE应用的逻辑只为EXE应用提供可视化的操作界面。EXE应用完全由用户部署管理,通过WEB服务端对EXE应用的接入,火车头采集可以对EXE应用进行可视化的管理,如:可视化的规则配置、实时采集日志查看,可配置多种版本的采集规则。
火车头采集提供采集规则有效性的检测功能(网页变动监控),支持错误发送邮件通知。提供同步采集API,可以异步采集方式。提供数据查询API,可以JSON、RSS(快速创建自己的Feed)的数据返回格式。可以并发速率配置。提供定时、循环多种采集计划任务配置。提供控制台实时查看采集日志,可以日志文件查看。
火车头采集可以分布式爬虫部署,支持按爬虫速率、随机选择,顺序选择的负载均衡方式。提供采集任务的备份与恢复功能。提供嵌套采集功能,解决数据分布在多个页面的情况。循环匹配支持数据合并功能,解决一篇文章分成多页的情况。火车头采集支持正则、XPath、CSSPath多匹配方式。提供基于 XPath 的可视化配置功能。提供网址抓取插件、数据过滤插件、文件保存插件、数据发布插件四种插件,让火车头采集适应更多更复杂的需求。