基于链接相似度的网页排序算法研究

被引量 : 0次 | 上传用户:sduheaven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要讨论网页排序相关算法,重点讨论了链接分析技术。首先,介绍了网页排序的基本原理,对几种较为常用的网页排序技术进行了对比分析;着重剖析了两种典型的链接分析算法:PageRank和HITS,分析了它们各自的优劣。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,没有很好地考虑语义信息,很容易受到无关链接的影响,产生主题漂移。本文设计了一个简单的计算模型改进PageRank算法,该计算模型在PageRank算法平均分配的基础之上,考虑了链接相似度信息,并利用朴素贝叶斯模型对链接相似度信息进行评估。由于考虑了出链接与目标网页相似度信息,使得那些没有价值的页面(广告页面)被分得较少的PageRank值,提升了真正有价值的页面所分得的PageRank值。最后,本文应用上述模型实现了一个模拟的搜索引擎。该模拟系统包含了搜索引擎的几乎全部功能,并在互联网真实环境下请一些用户进行实际测试,对上述算法进行验证。小范围用户测试结果表明:融入了链接相似度信息之后,提升了搜索结果的用户满意度。
其他文献
针对大型矿井建井工期长的技术难题,通过分析研究提出了风井井筒采用双提升系统改绞的方式。合理控制矿井建设工期,可有效缩短工程投资回收期,提高矿井经济效益。该文以石拉
采用CFD数值模拟方法对采空区瓦斯流动及分布规律进行了研究.阐明了计算流体力学CFD模拟的理论基础,介绍了运用FLUENT程序开发CFD模型的方法,并运用所开发的CFD模型对张北矿1
亚龙湾位于海南岛最南端 ,是我国著名的国际度假旅游胜地。蝴蝶谷内天然次生林的面积虽不大 ,但地理位置独特 ,蝴蝶区系丰富 ,共收集到蝴蝶 181种 ,隶属于 11科 114属 ,其中
依据修改后的《民事诉讼法》第55条,哪些机关和组织具有民事公益诉讼之原告资格,需要"法律"作出明确规定,而公共利益领域的多样性决定了应区分不同情况分别予以界定。鉴于我
介绍了混合动力汽车的主要结构型式和性能特点,分析了相关技术的国内外研究现状,提出了混合动力汽车配套选型的技术策略,指出了混合动力汽车目前需要解决的主要问题和采用的
利用研制的天然气水合物沉积物合成及力学性质一体化试验设备,以粉细砂土作为土骨架,分别对冰沉积物以及对四氢呋喃(THF)、二氧化碳(CO2)和甲烷3种水合物沉积物进行了室内合
<正>单核细胞增生李斯特菌(L monocytogenes)可以引起局灶性感染、败血症、脑膜炎、流产、死胎,甚至导致死亡,被称为李斯特菌病(listeriosis)。虽然李斯特菌病在人类并不多见
"以人为本"是马克思、恩格斯合著的《德意志意识形态》的核心内容,具体表现为:它无论哪方面的内容,都离不开人的问题,通篇都表现了"以人为本"的思想。《德意志意识形态》的"
数学教材是引导学生发展认知、培养人格的一种范例。教师可以根据实际情况对数学教材进行灵活处理,使其更加适应学生。在教材处理中,通常需要整合教材,让其更简洁;改变教材,
阐述了机械设计学科的发展历史,现代机械设计理论方法的特点、范畴和内涵.分析了我国机械设计领域与发达工业国家存在的差距及现代机械设计理论方法的发展方向,提出了只有下