论文部分内容阅读
主题搜索引擎是搜索引擎的细分和延伸,为特定领域、特定人群或特定需求提供定向信息和个性化信息检索服务。聚焦爬虫是主题搜索引擎的基础和核心设施,其主要目标是在有限的时间内尽可能多地抓取与给定主题相关的网页,已成为Web数据挖掘领域的研究热点之一。
本文基于对聚焦爬虫的基本结构和工作原理的分析,主要做出如下工作:
(1)通过对几种经典的爬虫搜索策略的深入研究和对比分析,本文提出了一种综合考虑内容分析和链接结构分析算法的策略,该策略综合考虑爬虫的立即回报价值和未来回报价值,有效解决了爬虫“陷入”问题。
(2)在内容分析部分,提出了基于多层次分类器的主题相关性算法,充分利用网页的结构信息和链接上下文信息以提高网页主题相关性判断的准确度。
(3)在链接结构分析部分,根据HITS算法来计算网页的Hub值和Authority值,以此预测URL的未来回报价值,指导爬虫穿越主题隧道以爬取更多主题相关页面。
(4)最后,在对聚焦爬虫相关技术的研究和分析基础上,本文实现了一个聚焦爬虫原型系统。
实验结果表明,本文提出的聚焦爬虫算法在收获率和目标召回率上均取得了较好的效果。