爱飞软件采集规则简述

2012-7-17 00:24| 发布者: 爱飞| 查看: 3310| 评论: 0

爱飞软件具有智能采集功能,这得益于大量内置规则,很多网站网页不需要写采集规则就可以轻松采集下来,不过有些网站采集效果不满意的话,还是需要做采集规则,这边介绍一下爱飞软件采集规则相关的概念。
 
爱飞软件具有智能采集功能,这得益于内置的大量规则,很多网站网页不需要用户编写采集规则就可以轻松采集下来,不过如果有些网页采集效果不满意的话,还是需要做采集规则,这边介绍一下爱飞软件采集规则相关的概念。
 

何时才需要制作采集规则

测试预览(ctrl+b)获取不到内容,或者获取到的内容不满意,另外,软件内置规则主要抽取 标题、正文、回复、主题分类、作者名,因为无法得知用户需要哪些分类信息字段,所以分类信息字段需要用户自行制作采集规则,这部分会用到采集规则 自定义标签 功能。
 
注:如果只是过滤少量的HTML代码、区块,过滤替换一些字符,也可以通过 处理方案--过滤 来进行过滤。
 

规则的作用

结构化抽取网页内容,如 标题、正文、回复、作者名、主题分类、分类信息(价格、面积、电话……)等,爱飞软件的规则同时控制采集和发布,不过如果只需要采集内容,那么可以只做采集部分的规则代码即可。
 
注:浏览器中显示的网页样式,有些是受css文件控制,比如颜色、缩进、字体大小等信息,可以查看源代码分析是否有这些信息,如果不在当前网页源代码中,这时候采集规则是无法提取到 颜色、缩进、字体大小的参数,不过可以通过 规则编程 等高级功能 来进行一定的格式化操作。
 

需要制作哪些规则

如果当前网页是版块列表页,制作列表规则
如果当前网页是帖子正文页,制作正文规则
如果在正文中,点击某个网址A后,还需要再次点击才能下载附件的,对网址A的网页制作下载规则
如果只是列表识别不正常,那只需要做列表规则,也就是说,用户自编的规则可以和软件内置规则组合使用,软件会自动调用规则。
 

如何调用采集规则

用户自编规则打钩即生效。另外,爱飞软件采用智能识别技术来“自动调用”规则:
调用优先级为(优先级从高到低排列): 用户自编规则(打钩即生效)-->软件内置规则(默认生效)-->智能规则(默认生效,可以关闭)
也就是说,用户自编的规则优先级最高,如果没有自编规则,软件将继续匹配内置规则,如果内置规则匹配不了,最后还会利用智能规则识别引擎再进行一次匹配抽取。如果需要精准采集,不想调用智能规则,可以关闭智能识别引擎:在采集全局设置--智能规则,取消 使用云规则、使用智能识别 的勾选。
 
 

最新评论

更多