论文部分内容阅读
随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径,由于Web上的文本信息日益增长,如何有效地检索用户所需的信息成为一个非常重要的研究课题。万维网WWW(World Wide Web)是一个巨大的、分布全球的信息服务中心,正在以飞快的速度扩展,这就对传统信息检索技术提出了新的挑战。在传统的信息检索技术没有突破性进展的现状下,从Web数据本身的特点出发,充分挖掘Web上最充分的超链接资源,通过超链接进行搜索,建立有效的Web信息检索模型,从而找到我们需要的信息。因此,链接结构分析在万维网的很多研究领域起着越来越重要的作用,本文将介绍链接结构在Web信息检索中的应用。近年来,许多研究者发现WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用这些资源,可以极大地提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位,而收敛算法的好坏尤其重要,它直接决定了得到最终PageRank向量的时空开销,一个好的收敛算法可以使系统在较小的时空开销下得到最终向量值,从而使整个搜索的效率得到提高。在当前情况下,PageRank要处理的矩阵是巨大的,传统的矩阵理论不能直接应用于PageRank的计算。因此迫切需要利用PageRank转移矩阵特征值的特殊性,找到一个比较高效的计算方法来提高迭代法的收敛速度,以便提高PageRank的计算效率。本文首先分析由链接生成的万维网网络结构在Web信息检索中的应用,然后介绍PageRank算法的模型建立与主要性质。随后,在现有PageRank计算方法的研究基础上,作者推导加速PageRank计算的一般性公式,设计产生满足Web链接结构特征的高维随机矩阵的算法。本文提出General Extrapolation和Acceleration Extrapolation两种有效的加速收敛方法。最后,我们分别在高维随机矩阵数据和四个数据集上进行数值实验,实验结果证实加速PageRank计算的理论分析和算法的有效性。从实验结果可以看出,计算速度得到明显加快。