万维网搜索算法中的马氏链方法

来源 :中国科学院数学与系统科学研究院 | 被引量 : 0次 | 上传用户:wohaha163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前所使用的第二代万维网搜索引擎中,最具创新性的核心技术是网页重要性的计算方法——链接分析算法。它一反第—代搜索引擎中人为打分的方法,只利用万维网的超链接结构,就可以度量网页的重要程度。这个革新很快引起了技术界和理论界的广泛关注,目前已成为信息检索领域的热点课题。   本文从马氏链的角度,对最著名的链接分析算法——PageRank算法进行了新的刻画和理解。并以此为基础,得到了一些对链接分析算法的性质分析和算法设计有意义的结果:   首先,我们研究了PageRank算法的极限性质,证明出当阻尼因子α趋于1时PageRank算法的极限是存在唯一的,并可以写出显式表达式。此结果可以证明Boldi等人在WWW2005大会报告([16])中提出的猜想是正确的。   第二,我们研究了PageRank算法中的三种不可约马氏链,在平稳分布、收敛速度、以及平稳分布的Maclaurin级数展开之间的异同。结果表明最大和最小化马氏链具有相同的平稳分布;在实际中,最大化和中间型马氏链具有比最小化马氏链更快的收敛速度。综合而言,Google所使用的经典PageRank算法是更具优势的。   第三,我们为网页排序设计了N-Step PageRank算法。此算法受计算机象棋对弈的启发,用“向前看N步”的思想建立了新的网上冲浪马氏链的转移概率矩阵。实验结果表明,2-Step PageRank算法的平均精确度比PageRank算法提高了15%。   第四,我们为网站排序设计了AggregateRank算法。由于传统的网站排序算法具有明显的不合理性,我们提出了用“网上冲浪马氏链对网站的访问频率”来度量网站重要性的新思想。通过证明可知,网站被访问的频率正好等于此网站所包含的所有网页的PageRank值之和,进而我们基于马氏链的随机补理论构造了近似计算PageRank和的AggregateRank算法。   文中的很多工作得益于与微软亚洲研究院同行以及“随机图与复杂网络”研究小组成员的讨论与合作,致谢部分将详细讲述合作的内容与过程。
其他文献
一、兴趣是最好的老师,习作教学要从调动学生兴趣开始一是精心设计作文活动。除平时注重引导学生注意观察和积累外,根据作文训练要求,设计好参观、演示、摹状、角色扮演等活
密钥共享是现代密码学的一个重要分支,它有效地解决了密钥的存储和管理问题。Shamir 在分发者(庄家)和参与者(受托人)都诚实可信以及参与者权限都相同的假设条件下,提出了(t,n)
本文研究了分数次积分算子的交换子在一些加权空间上的有界性质.  设L是L2(Rn)上的线性算子,它生成了一个具有核pt(x,y)的解析半群{e-tL:t>0},且pt(x,y)满足Gaussian上有界
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
伴随我国社会经济的迅速发展和教育体制的深化改革,我国许多的重点高校将建设创业型大学作为了其最新的发展目标.针对于新形势下以及建设创业型大学的要求,大学的财务管理必
这篇论文主要是考虑强不定非线性椭圆问题解的存在性。   首先我们研究了薛定谔方程-△u+V(x)u=aγ(x)f(u)在RN中解的存在性,主要想法是通过有界域上的解来逼近全空间的解
学位
■不论在哪个部门、哪个地方、哪个方面工作的党员干部,首先都是党的干部,始终把党的事业放在心中最高的位置。明白自己的第一身份是党员、第一职责是为党工作,坚持党的领导
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
在大学课堂中,社交媒体的使用逐渐推广,成为一种新颖、高效的教学方式。这种教学方式在增强教学互动性的同时,也丰富了课堂生活。以大庆地区高校使用社交媒体的情况为例,分析
目前图论学中,人们对图标号问题的研究是最多的,而布尔指数集是图标号问题中很重要的一个课题,边-平衡指数集又是布尔指数集的一个重要分支,国内外很多学者都致力于此方面的研究,