论文部分内容阅读
近年来,随着互联网的迅速发展和技术的不断更新,互联网上的信息也与日俱增,人们生活和学习的方式都因此发生了翻天覆地的变化。而普通的互联网用户想要找到自己所需的信息犹如大海捞针,在这一形势下搜索技术诞生了,而根据网页之间的链接关系对网页权威值进行排序的Web页面排序算法是其关键技术之一。众所周知,Google公司的PageRank算法是非常经典的页面排序算法,其主要思想是根据网页之间的链接关系进行权威值的传递,从数学模型上来讲,PageRank算法是一个马尔科夫随机游走模型。HITS算法是另一个经典的算法,它将网页分为权威网页和枢纽网页两种,利用网页的权威值和枢纽值之间的相互加强作用求得网页最终的权威值,并以此对网页进行排序。本文首先介绍了搜索引擎的组成、原理以及简单分类,对Web数据挖掘尤其是Web结构挖掘进行了总结和概括。其次对Web结构挖掘中的PageRank算法和HITS算法进行了系统的研究,总结两种算法的优点和缺点,并分析导致其缺点的主要原因。然后,针对PageRank算法的缺点及其原因,结合HITS算法的思想,设计了两种新的算法。第一个算法考虑了被链入页面的入度、死链率和出度,重新定义了页面转移函数,克服了PageRank算法主题漂移的缺点;第二个算法增加了网页继承PR值的思想,考虑了网页修改时间的因素,克服了PageRank算法歧视新网页、倾向旧网页的缺点。最后,设计一个爬虫程序,分别模拟了经典PageRank算法和两个新算法,并对三者进行了全面的对比,从而验证了算法的有效性和可行性。