论文部分内容阅读
随着互联网的蓬勃发展,Web中每天都会产生大量的网页,这些网页内容千差万别。面对海量的Web网页信息资源,搜索引擎作为信息获取的重要工具,越来越难以提供精确地查询服务。因此,提供与某特定领域主题相关、为用户提供更加及时、准确的查询服务的垂直搜索引擎应运而生。主题爬虫是垂直搜索引擎的核心模块,负责对Web网页进行垂直搜索,将主题相关的网页存储到本地,供垂直搜索引擎建立索引和为用户提供查询服务。在大规模垂直搜索时,如何准确地判断一个网页是否主题相关、以什么样的搜索策略搜索Web网页,是垂直搜索的两个关键问题。基于网页内容的搜索策略将整个网页内容作为主题判别的关键因素,容易受到网页中包含的广告、图片和Flash动画等“噪音”信息的干扰,导致判别的准确率很低。此外,如果主题爬虫只从主题相关的页面中提取链接,往往容易忽略一些有价值的导航型网页中包含的目标主题链接。本文针对这些问题进行研究,重点集中在主题爬虫的搜索策略和页面链接的价值评估上,提出基于网页特征加权的主题判别算法和基于块提取的链接价值评估方法。论文的主要工作和创新点如下:(1)提出一种网页特征加权的主题判别算法。通过对HTML网页标签特征的研究和分析,发现不同的HTML标签包含的文本对判别网页内容主题的贡献程度不同。本文利用TF-IDF算法提取网页特征词时引入HTML标签权重因子,并引入基于网页特征加权的朴素贝叶斯分类器对网页主题与目标主题之间的相关性进行判别。数值分析的结果表明,该方法显著降低了“噪音”对主题相关性判别的影响,判别准确率提高了 2.5%以上,召回率提高了 3.5%以上,同时还节省了网页的存储空间。(2)提出一种基于块提取的链接价值评估方法。通过对网页结构布局特征的研究和分析,发现当利用div标签和table标签对导航型页面和与主题相关页面进行网页分块处理后,可以引入改进的朴素贝叶斯分类器对网页块进行主题判别,并从主题相关的网页块中提取链接,利用链接锚文本与目标主题的主题相似度、父网页块与目标主题的主题相似度来对网页块中的链接进行价值评估。实验结果表明,本文算法与Best-First算法和PageRank算法相比,在搜索效率和搜索准确率上均得到了明显的提高。