论文部分内容阅读
随着互联网技术的迅猛发展,浩瀚的网络信息与人们获取真正所需信息能力之间的矛盾越来越突出,这就需要搜索引擎技术的支持。然而面临互联网上呈几何级数增长的资源,采集方面已经面临着索引规模、更新速度以及个性化需求等多方面的挑战,通用搜索引擎再也不能满足人们对个性化、专业化信息检索服务不断增长的需要,建立面向特定领域的主题搜索引擎已经成为搜索引擎新的发展方向,主题搜索引擎被称为第四代搜索引擎。作为主题搜索引擎中占基础核心地位的主题爬虫的研究已经成为网络数据挖掘领域的研究热点。本论文主要围绕主题爬虫进行研究,通过分析主题爬虫相关算法,在Heritrix基础上扩展下载逻辑,使爬虫采集的页面更向主题靠拢。主题爬虫是一种特殊的网络爬虫,其主要目标是在有限的时间内尽可能多地抓取与设定主题相关的网页,尽可能少的抓取与主题无关或低质量的网页。主要的研究工作包括:①、研究了主题爬虫的基本结构及相关理论,深入分析了主题爬虫的相关技术和关键算法,设计与实现了一种基于模拟退火算法搜索策略的主题爬虫——SAS-Crawler。②、在计算页面的主题相关度方面,通过对页面的结构进行分析,根据不同的标签在页面中的位置不同来分配不同的权重,从而使页面的主题相关度计算更加准确。③、在预测链接URL所指的目标页面与主题的相关度方面。综合考虑了多方面的启发信息。如链接文本、链接上下文信息、父页面的主题相关度以及链入链接数。由于同时考虑了内容和链接结构的影响,所以既避免了“主题漂移”,又增大了搜索空间。④、在链接选择方面,本文使用了基于模拟退火机制的链接选择策略。由于主题网页的“隧道”现象,导致了不相关网页之后的相关页面不容易被搜索到。也就是说即便当前页面与主题不相关,此页面中的链接所指的目标网页也有可能是主题相关的。通过使用模拟退火机制的链接选择策略可以很好的限制局部最优,下载更多的主题相关网页。⑤、研究了开源网络爬虫Heritrix,并在Heritrix的基础上进行了一些改进。增加了主题确立模块、页面主题相关度计算模块、以及链接评价模块。并修改了链接搜索策略,采用基于模拟退火算法的链接搜索策略。实现了本文提出的SAS-Crawler。并通过实验测试了本论文的主题爬虫,并给出了实验和结果分析。