论文部分内容阅读
伴随着互联网的飞速发展,网络中信息量成指数级增长,这使得用户获取信息变得越来越困难。为了更好的使用互联网中庞杂的资源,搜索引擎应运而生。通常评价搜索引擎的性能的标准是用户对搜索引擎的满意度,而用户在使用搜索引擎进行搜索时,一般会优先选择点击排名相对靠前的网页,因此对搜索引擎的搜索结果进行合理的排序会显著提升搜索引擎的用户体验。知名度最高的搜索引擎Google采用的网页排序算法就是Page Rank排序算法。Page Rank算法被广泛应用于度量网页的重要性,但是传统的Page Rank算法在计算过程中忽略了一些可能影响网页重要性的因素,存在多方面的缺陷。本文基于网页相似度对Google著名的Page Rank排序算法进行研究。首先阐述了Page Rank算法的研究背景及意义和国内外关于Page Rank算法的研究现状,介绍了搜索引擎的发展历程、工作方式和评判标准,然后着重剖析了Page Rank算法原理。经典的网页链接分析算法Page Rank将“每个链接代表一个网页作者对所指向的网页的一种独立的认可”作为算法的前提条件,但是传统的Page Rank算法的一个主要缺陷是将一个网页的Page Rank权值平均分配到所有的出链上,并没有考虑网页的语义信息,以此为基础提出一种基于网页相似度的Page Rank算法的改进,通过相似度权重来分配Page Rank权值,相似度包含网页文本相似度和网页链接相似度两部分。由于考虑了出链页面与目标网页的相似度信息,从而不仅提高网页的重要性的准确度,而且使得检索到的排序结果的查准率更高。最后,为了验证改进算法的性能和效率,本文实验部分借助开源搜索引擎Iveely在互联网真实环境中请一些用户进行实验测试。小范围的用户测试结果表明:融入了网页文本相似度和网页链接相似度的改进算法之后,提高了搜索结果的查准率和用户满意度。