基于SOLB的PageRank加速算法的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:shadow2100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,web的搜索技术一直是研究人员关注的热点领域。为了让搜索引擎的使用者看到更相关的结果,研究人员提出一系列利用web的结构来提供重要性排序的算法,其中一个重要的算法是PageRank算法。 但是原始的PageRank算法在计算上开销很大,往往数十台计算机还需计算数天之多,这就要求研究者提出更快速的计算方法。本文在研究网页的相同链接行为的基础上提出一种新方法,该方法在PageRank算法的基础上引入了网页的SOLB特性来达到令算法加速的目的。 所谓的SOLB即英文“SameOut-linkBehavior”的缩写,也就是网页的相同链接行为,系指两个网页链接的页面完全一致。简单的说,我们的方法是将SOLB页面聚合成“簇”,令参与计算的结点数减少。同时我们还证明,在簇这个层面上进行计算和原来的计算方法的结果一致。为了令方法更加实用,聚合的范围被限制在同一目录内,这样能有效的降低聚合的计算复杂度。此外,我们还定义了页面的SOLB相似度。此外,为了将非SOLB的页面纳入研究范围,我们在文中引入了不同页面外向链接的相似度:cosine相似度和基于集合的相似度。 不同相似度上的实验表明,相对于原始的PageRank算法这种方法能减少1/3到1/2的计算时间。考虑到原始方法的计算时间长达数天,该方法节约的时间是相当多的。
其他文献
本文研究Lorenz型不变集。具体研究C1向量场的有奇持续传递集。 本文证明了,C1向量场中具有强齐性的有奇持续传递集,如果奇点的指数与附近系统周期轨的指数满足一定匹配的关
现实世界上大量存在的瞬间突变现象,用脉冲微分方程和脉冲泛函微分方程来描述含有这一现象的系统往往更为确切.脉冲微分方程的研究已有大量的结果.由于脉冲效应的影响,系统原来
本文采用演算的方式对余代数理论进行了研究,并将所得到的理论成果应用于构件化软件开发方法中。在本文中,提出了基于状态的类属化软件组件的余代数模型,并分别给出了两种相关的
当计算晶体相变形成微结构的问题时,往往会导致一个能量泛函极小化的问题。但是理论和实际经验表明,数值方法的有效性很大程度依赖于微结构本身的组成形式。所以研究微结构的可
本文针对商业银行在处理房地产上市公司的贷款申请时所建立的信用风险度量模型进行研究,重点考虑模型中的变量选择及参数估计。在综合国内外研究成果的基础上,利用房地产上市
本文首先介绍空间点过程的一些基本概念,并对点过程中几类重要的检测统计量的研究作一个简要回顾。作为非参数统计量,每个检测统计量都存在不足之处,接下来,本文将分两种情况对检
最近几年来,全基因组序列测序的完成、大规模测定EST(表达序列标签)序列技术的完善和高性能计算机的使用,使得用模拟计算的方法大规模的定位和注释基因成为可能。一些研究者已
尖峰、厚尾是金融时间序列的主要特征之一,好的金融时序模型的平稳分布应该呈厚尾分布,且模型能够将薄尾输入转化为厚尾输出。而线性模型不具备这个特点,所以,金融时间序列主要讨
本文主要讨论了单位圆盘上极值拟共形映射的若干问题,其中主要有: (一)边界极值映射与退化Hamilton序列, (二)极值Beltrami微分的Hamilton序列与点移微分, (三)L∞(Δ)
本文主要研究首都圈附近九个观测台站的水氡浓度与首都圈5级以上地震事件的对应情况。通过三倍标准差和正态检验两种方法判断水氡浓度的异常变化,得到单台和多台水氡浓度的异