论文部分内容阅读
近几年来,web的搜索技术一直是研究人员关注的热点领域。为了让搜索引擎的使用者看到更相关的结果,研究人员提出一系列利用web的结构来提供重要性排序的算法,其中一个重要的算法是PageRank算法。
但是原始的PageRank算法在计算上开销很大,往往数十台计算机还需计算数天之多,这就要求研究者提出更快速的计算方法。本文在研究网页的相同链接行为的基础上提出一种新方法,该方法在PageRank算法的基础上引入了网页的SOLB特性来达到令算法加速的目的。
所谓的SOLB即英文“SameOut-linkBehavior”的缩写,也就是网页的相同链接行为,系指两个网页链接的页面完全一致。简单的说,我们的方法是将SOLB页面聚合成“簇”,令参与计算的结点数减少。同时我们还证明,在簇这个层面上进行计算和原来的计算方法的结果一致。为了令方法更加实用,聚合的范围被限制在同一目录内,这样能有效的降低聚合的计算复杂度。此外,我们还定义了页面的SOLB相似度。此外,为了将非SOLB的页面纳入研究范围,我们在文中引入了不同页面外向链接的相似度:cosine相似度和基于集合的相似度。
不同相似度上的实验表明,相对于原始的PageRank算法这种方法能减少1/3到1/2的计算时间。考虑到原始方法的计算时间长达数天,该方法节约的时间是相当多的。