搜索引擎有关排序算法研究

来源 :武汉理工大学 | 被引量 : 11次 | 上传用户:gaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络已经成为了人们获取信息的重要来源。但是网络信息的快速增加,使得人们快速准确查找信息的难度也不断增大。搜索引擎的出现,就是为了帮助人们解决这个问题。搜索引擎是一项不断发展的技术,包括网页抓取、分词、页面索引、数据存储、检索、结果排序等一系列的技术环节,搜索结果排序是其中最重要的环节之一。用户最关注的就是搜索引擎返回的搜索结果和自己的查询主题是否一致,结果页面是否能满足自己的信息需求。因此,在海量信息中,搜索引擎能否将最相关的页面显示在搜索结果的最前面,成为了搜索引擎目前发展最关注的问题。   本文通过了解搜索引擎发展历程,研究搜索引擎技术的整体架构,分析了搜索引擎系统各个部分的主要功能和整个工作流程,明确了搜索引擎的评价标准。在此基础上,着重研究了搜索引擎排序算法的有关问题。按照基于网页内容的排序算法和基于页面链接分析的排序算法两类不同的排序算法思想,分别分析了这两类算法的基本原理和实现方法,重点研究了PageRank算法、HITS算法、HillTop算法这三种经典的排序算法,从算法思想、基本过程、算法的优缺点和已有的改进方法等方面,详细对基于页面链接分析的排序算法进行了研究。   本文针对基于页面链接分析的排序算法存在的问题,引入了用户反馈的概念,分析了用户反馈在搜索引擎中使用的方式,并以PageRank算法为基础,提出了改进的方法。改进的PageRank算法添加了用户点击次数反馈和点击时间反馈的反馈权重,并结合基于网页内容的排序算法思想,加入了网页内容权重,对PR值的计算公式进行改进。   通过设计实验对改进的算法进行验证,对比分析改进前后的排序算法结果页面中相关页面的情况,证明了改进的PageRank算法能够较好的解决主题偏移、网页欺骗和偏重旧网页等问题,使搜索结果中相关性较高的页面能够排在前列,提高了搜索结果的质量。  
其他文献
近年来,随着信息技术的迅猛发展,基础设施系统间的依赖关系变得越来越强,研究具有相互依存关系的网络的鲁棒性能够为基础设施系统的设计与保护提供理论依据和参考价值。  针对
随着人类社会现代化进程的高速推进与经济的快速发展,汽车得到了广泛普及,走进了千百万普通家庭。然而,汽车在给人们的出行带来方便的同时,城市交通拥挤加剧、交通事故频发、
文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文
随着新硬件的出现以及新应用领域的发展,人机交互活动越来越成为人们日常活动中一个重要组成部分。由于人手具有的多样性、多义性,以及在时间和空间上的差异性等特点,加之人
随着计算机技术的迅速发展以及网络的普及,越来越多的用户开始通过网络进行各种信息的分享与交流,社会网络的概念也应运而生。在社会网络中,每个行动者都与其他行动者有或多
随着互联网和信息技术的飞速发展,日益增长的隐私问题已经成为信息共享的主要障碍。如何有效保护发布数据中含有的个人隐私信息已备受人们关注。基于k-匿名模型和l-多样性模型
在实时数据库VegeBam1.0的基础上构建实时数据库系统VegeBam2.0的系统架构,并在研究的基础上开发了一个具有自主知识产权的实时数据库系统VegeBam2.0。主要内容如下:描述了实
监控视频下的行为识别是计算机视觉领域的研究热点之一,本文对其从时空关系挖掘的角度进行研究。首先,提出针对监控下异常行为的基于时空一致性光流特征分类的行为识别技术,获得了很好的识别效果;进一步,针对干扰识别效果的重要因素之一——阴影问题,提出了基于马尔可夫时空关系建模的移动阴影检测方法,获得了很好的阴影检测结果,从而有助于取得更佳的行为识别效果。(1)基于时空一致性光流特征分类的行为识别为了区分视频
学位
随着计算机网络信息时代的到来,企业信息的安全问题已经越来越多的被广泛关注。对于企业来说,不仅要杜绝来自企业外部的攻击和破坏,更要防止来自企业内部的有意或者无意的泄密行
随着当代高铁技术的蓬勃发展,列车速度不断提升,铁道线路快速延伸,这就对列车到达预警的很多性能参数,如预警距离、系统功耗成本、扩展性、抗干扰性等提出了更高要求。面对这