垂直搜索引擎中PageRank改进算法的研究与应用

来源 :云南大学 | 被引量 : 0次 | 上传用户:sjappleshujin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术不断向前发展,互联网早已成为全球最大的信息资源库,它不仅为人们提供了良好的信息共享技术,而且也实现了资源共享服务。但是互联网中的信息量急剧增长也带来了很多冗余信息和垃圾资源,使用户难以在其中找到自己需要的信息资源,如何有效检索信息就成了亟待解决的问题。针对特定的人群和领域的垂直搜索可以解决这种困境。论文一开始介绍了搜索引擎的发展过程和垂直搜索引擎的工作原理,具体分析了垂直搜索引擎的索引技术以及实现排序的相关技术。分析了传统PageRank算法基本原理和在垂直搜索引擎中适用的前提条件。为后面对PageRank算法改进奠定理论基础。文中重点从PageRank算法出现的“主题漂移”问题入手,分析产生的原因。并介绍了国内外对于该问题所取得的研究成果。针对这个问题,本文一方面从查询主题关键字与页面内容相似度入手,分析得出它们的相似度算法因子;另一方面对查询关键字与本地主题数据库中已存在关键字的相似性进行分析,通过模糊数据集推导出二者的相识度算法因子。将两个算法因子导入PageRank算法中,并通过模拟实验,对比原有算法结果,得出改进后的算法在一定程度上降低了算法“主题漂移”的可能,提高了算法结果的正确性。最后,本文以农业领域为例,将改进后的PageRank算法应用到垂直搜索引擎中,通过实际应用,对比其他主流网站的搜索结果,可以得出改进后的PageRank算法具有一定的优越性,搜索结果更准确,搜索系统也更加稳定,可以满足用户的搜索请求。
其他文献
2012年"7·21"大洪水已经过去,但留给我们的是诸多思考。就洪水特征、成因及应对措施3个方面对大清河系"7·21"洪水进行了分析。
无论是西方诠释学还是中国诠释传统都注意到了理解和诠释中所蕴含的接受性和创造性这双重特质。伽达默尔把海德格尔的本体接受性改造成为一种被描述为哲学诠释学的诠释创造性
随着城市化建设在经济增长的刺激下不断推进,铁路客运站作为重要的城市枢纽和城市副中心,其规模和功能复杂程度呈上升态势。21世纪以来,我国铁路进入了快速发展的新时期,铁路
目的:提高医院药品不良反应(ADR)上报质量。方法:采用医院集中监测模式,收集医院ADR快速上报信息系统应用前后的ADR报告表,对上报数量、报告类型、时限及质量等进行统计分析
目的 :研究龟鹿补肾丸的补肾药理作用。方法 :观察药物对免疫和内分泌功能、生殖附性器官生长发育的影响。结果 :龟鹿补肾丸能提高小鼠炭粒廓清能力 ;提高幼年雄性小鼠的生殖
在新的经济常态下,"消费"在传统的经济三驾马车中显示出巨大生命力,成为经济增长的主要动力。大数据是信息技术革命的产物,因为它具有巨大的科学价值和社会价值,因此受到了社
鉴于纳米SiO2易于工业化生产,具有较好的耐热性、耐压性等特性,更适合应用于铁路、高速公路、桥梁等建筑领域。然而,纳米SiO2比表面积大、表面能极高,易于发生微粒之间的团聚
随着我国社会主义市场经济体制的不断发展,注册会计师所发挥的作用越来越大,其专业胜任能力要求也越来越高。要想保证注册会计师较高的专业胜任能力,一套科学完整的制度体系
近年来,随着人民生活水平的提高,旅游日渐成为消费者节假日放松娱乐的新选择。国家旅游局将2009年确定为“中国生态旅游年”,并将主题年口号确定为“走进绿色旅游,感受生态文
我国虽然拥有较多的石油资源,但我国人口众多,人均资源拥有量较低。为了保证开采石油量符合我国使用情况,我国加大了对石油的开采力度,但由于输油泵存在利用率低、耗能大等问