论文部分内容阅读
伴随着互联网的迅速发展,网络中信息量飞速膨胀,一方面丰富了互联网中的信息量,另一方面使得用户获取信息变得越来越困难。搜索引擎技术的出现为人们在互联网中搜索自己需要的信息提供了便捷的通道。目前,人们对搜索引擎已经非常熟悉,大多数的用户在登录互联网时都会首先登录搜索引擎主页。因此,如何更好的为用户提供服务成为了搜索引擎不断探索的问题。搜索引擎的性能质量是通过搜索引擎用户的满意程度来反映的,而用户在通过搜索引擎进行搜索服务时,往往会优先选择点击搜索结果中排名靠前的网页,因此合理的对搜索引擎的搜索结果进行排序,会显著的提高搜索引擎的质量。对搜索引擎的搜索结果进行排序的算法最重要的有两个:PageRank算法和HITS算法。PageRank算法由于是离线计算的,性能要比HITS高,因此在实际使用中,PageRank算法更为普遍。传统的PageRank算法在计算的过程中忽略了一些可能影响网页重要度的因素,存在多方面的缺陷。为了避免PageRank算法存在的缺陷,本文提出了对传统算法的三方面改进:第一,由于传统PageRank算法只是通过网页的链接来判断网页的重要性,而忽略了网页内容之间的相关度,因此传统PageRank算法会导致主题漂移现象。本文通过空间向量模型来计算网页之间的内容相关度,然后将计算结果转换成相对权值。在改进的算法中,网页内容主题相关度的权值会决定网页权威值如何分配,越相关的网页所分得的权威值越大。第二,根据传统PageRank算法计算的网页权威值与网页被引用的次数成正比。对于新网页来说,由于其上线时间较短,被其他网页引用的次数少,因此排名会比较靠后。为了使一些重要的新网页能够较快速的提升名次,本文提出了一种改进的时间反馈加权方法。第三,搜索引擎在运行中会记录大量的用户行为信息,这些信息反映了用户的搜索倾向,合理的利用这些信息有助于提升搜索引擎的质量。本文将用户的主观点击行为进行统计并处理,用来表示用户对网页进行的投票,将这个用户的投票融入到排序算法当中,可以使得最后的排序结果能够反映出用户对网页的主观选择行为。为了从多方面来优化PageRank算法,更大幅度的提高搜索引擎的性能质量,本文将主题相关度、时间反馈和用户反馈三种因素综合起来考虑,使三种因素能够共同影响网页权威值的分配。改进的算法叫做Multing-PageRank算法。本文实验部分借助开源搜索引擎Nutch爬取网络上的数据,然后分别根据改进的算法和传统算法对Nutch的查询返回结果进行排序。通过对排序结果进行分析和查询测试,验证了通过改进算法计算的排序结果受到了用户主观行为的影响,查准率得到了提升,尤其是查询新网页的查准率明显高于传统算法。