论文部分内容阅读
由于互联网上的信息量呈几何级数增长,用户对于网络信息的应用需求也不断提高,传统的搜索引擎也不能保证综合风险信息的全面性和精准性。因此,必须构建综合风险的信息检索平台,利用现代信息技术对网络上的综合风险灾害信息予以分析,从而进行控制和引导。面对高速增长的巨大的网页数量,面向特定领域的垂直搜索引擎将更为实用,并会成为综合搜索引擎的互补形式。主题爬虫是垂直搜索引擎系统中最为关键也最为复杂的组件之一,它的性能直接决定了搜索引擎的最终效果。面向主题的网络爬虫的研究已经成为下一代搜索引擎和网络爬虫技术的研究热点。
本论文的研究工作主要包含以下四个方面:
(1)文章首先分析了当前的主题爬虫研究进展,提出了综合风险主题爬虫模型与主题信息发现策略,构建了主题检测引擎和主题域,对超链接的主题相关性进行判定。
(2)根据主题论坛爬行的特点,提出了一种基于论坛软件探测算法(WFSD)的论坛爬行策略,该策略的收获率和召回率都明显优于广度优先算法。
(3)分析了多种多模式匹配算法,并在Modified Wu-Manber算法的基础上,针对中文文本和主题检测引擎的实际需求进行了改进,提出并实现了一种快速多字节字符串匹配算法(FMBWM),该算法可以加快中文字符串的处理速度。
(4)在上述理论和技术基础上,设计并实现了一个综合风险主题爬虫(IRFC),该爬虫具有很好的收获率和良好的可扩展性。