论文部分内容阅读
当前所使用的第二代万维网搜索引擎中,最具创新性的核心技术是网页重要性的计算方法——链接分析算法。它一反第—代搜索引擎中人为打分的方法,只利用万维网的超链接结构,就可以度量网页的重要程度。这个革新很快引起了技术界和理论界的广泛关注,目前已成为信息检索领域的热点课题。
本文从马氏链的角度,对最著名的链接分析算法——PageRank算法进行了新的刻画和理解。并以此为基础,得到了一些对链接分析算法的性质分析和算法设计有意义的结果:
首先,我们研究了PageRank算法的极限性质,证明出当阻尼因子α趋于1时PageRank算法的极限是存在唯一的,并可以写出显式表达式。此结果可以证明Boldi等人在WWW2005大会报告([16])中提出的猜想是正确的。
第二,我们研究了PageRank算法中的三种不可约马氏链,在平稳分布、收敛速度、以及平稳分布的Maclaurin级数展开之间的异同。结果表明最大和最小化马氏链具有相同的平稳分布;在实际中,最大化和中间型马氏链具有比最小化马氏链更快的收敛速度。综合而言,Google所使用的经典PageRank算法是更具优势的。
第三,我们为网页排序设计了N-Step PageRank算法。此算法受计算机象棋对弈的启发,用“向前看N步”的思想建立了新的网上冲浪马氏链的转移概率矩阵。实验结果表明,2-Step PageRank算法的平均精确度比PageRank算法提高了15%。
第四,我们为网站排序设计了AggregateRank算法。由于传统的网站排序算法具有明显的不合理性,我们提出了用“网上冲浪马氏链对网站的访问频率”来度量网站重要性的新思想。通过证明可知,网站被访问的频率正好等于此网站所包含的所有网页的PageRank值之和,进而我们基于马氏链的随机补理论构造了近似计算PageRank和的AggregateRank算法。
文中的很多工作得益于与微软亚洲研究院同行以及“随机图与复杂网络”研究小组成员的讨论与合作,致谢部分将详细讲述合作的内容与过程。