论文部分内容阅读
飞速发展的互联网带来了海量的信息资源,用户能否从中有效地获取自己感兴趣的资源很大程度上取决于搜索引擎的性能。在面对用户强烈的个性化需求时,通用搜索引擎难以为其提供满意的结果。为了打破通用搜索引擎的这一局限性,研究具有专业特点的智能化搜索引擎成为一种趋势,因而顺理成章的诞生了垂直搜索引擎。垂直搜索引擎中的主题爬虫犹如人的心脏一样,起着非常基础与关键的作用。主题爬虫按照用户给定的目标主题,智能化的搜索Web,快速、准确地提取出主题相关页面,满足用户所需。研究高效的主题爬虫对于提高垂直搜索引擎的性能有着非常重要的作用。本文主要从以下三个方面展开所要研究的内容:首先,本文对网络爬虫的基本原理进行了介绍,然后分析了主题爬虫的工作流程,之后讨论了关于主题的描述方法,接着重点分析了网页预处理技术,包括HTML标签、网页标题和正文内容的提取、锚文本的提取以及中文分词技术,为后文主题相关性计算奠定了坚实的基础。其次,分析了基于页面内容评价的Best-First算法,针对向量空间模型中权重计算方法,只考虑特征词的词频,忽略了特征词的位置信息这一不足,本文提出利用HTML标签的修饰功能,采用加权频率来计算权重,提高主题相关性判断的准确率。另外,讨论了Best-First算法的贪婪性,针对Best-First算法难以获得全局范围内最优解的局限性,本文对主题爬虫的搜索策略做了一点改进,提出不仅注重搜索与主题相似度很高的链接,同时还考虑某些蕴涵很大远期价值的链接,从而使得主题爬虫能在一定程度上获得全局范围的最优解。最后,本文通过上述分析的理论基础,设计并实现了一个简单的主题爬虫系统。实验结果表明,相比于宽度优先搜索算法和基于页面内容评价的传统的Best-First算法,本文提出的改进算法具有更高的准确率和召回率,它是有效的。