新版帝国CMS采集分享,完全免费(附下载)
本文主要是给站长们分享帝国CMS采集,关于帝国CMS采集的一些功能知识。无需看全文,直接阅读本文文章图片,即可了解帝国CMS采集相关。【图片1,帝国CMS采集重点1】
帝国CMS采集系统很好用,无需会任何程序,只需在相应的采集内容加上相应的标签即可。
本系统无论是内置的系统模型还是用户自定义的模型都有自己相应的采集。自动化内容采集的支持,大大降低了内容维护的工作量,并让网站管理系统与企业的其它信息化系统无缝集成,提高了信息的利用率。【图片2,帝国CMS采集重点2】
使用简单:无需会任何程序,只需在相应的采集内容加上相应的标签即可。
多重过滤:同一链接可设置不重复采集;设置采集关键字(不包含不采集);内容字符替换;广告过滤;整页代码过滤;过滤相似信息;过滤标题相同信息;设置采集记录数。
采集区域更准确:整体页面区域正则+信息链接区域正则。
支持多种页面编码转换:支持GB2312、BIG5、UTF8、UNICODE编码转换。【图片3,帝国CMS采集重点3】
效率更高:采用分组采集与入库;支持多线程(节点)采集。
方便性:采集可选是否马上入库(特别对于挂机采,非常方便);填写采集正则后可预览采集结果,可验证采集正则的正确性;复制、清空节点;可选择“选择式”与“全部式”入库;对采集的临时数据进行管理。【图片4,帝国CMS采集重点4】
远程保存文件:支持远程保存图片/FLASH/附件,图片加水印。
采集规则导出与导入功能。
支持验证字段内容为空不采集:支持自定义字段设置,并且支持多个字段同时验证。
支持采集时间和入库时间间隔设置:可防止过度采集被封。
其它特性:支持多列表采集、内容分页采集。
采集关键的几个步骤
一:先建好栏目
二:增加采集节点(需要选择栏目)
三:录入节点名称
四:如果有很多页,只需录入采集页面地址方式二中的内容新闻标题
很多站长想要了解正则相关问题,简单说一下,建议直接看图片,简单方便,不需规则复杂配置,完成帝国CMS采集。
正则:<td>标题:<strong>[!–title–]</strong></td>
新闻内容正则:<td>内容:<font color=”#FF0000″>[!–newstext–]</font></td>
“[!–title–]”与“[【如何提高百度排名】!–newstext–]”分别为“标题”字段与“内容”字段的正则变量。用于指定我们要采集的内容位置。
(3)、由上面我们得出了,帝国CMS采集正则是把正则变量替换要采集内容后的代码内容。格式:
识别代码头部[!–变量名–]识别代码尾部
注意:上面的“识别代码头部”一定是要唯一的标记。
2、帝国CMS正则还有表示任意内容的字符:“*”
如果“识别代码头部”中有内容是变化的,那么我们可以用*代替它。如页面源代码为如下,我们要采集下面的链接地址:
<a title=”任意可变内容” href=”链接地址”>标题</a>
通过使用“*”任意内容表示字符,我们可以用下面的正则忽略可变内容,获得地址:
<a title=”*” href=”[!–newsurl–]”>
附加说明:[!–newsurl–]为页面链接地址的正则变量。
147SEO » 新版帝国CMS采集分享,完全免费(附下载)