基于网页相似度的搜索算法改进的研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:evil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的飞速发展,网络中信息量成指数级增长,这使得用户获取信息变得越来越困难。为了更好的使用互联网中庞杂的资源,搜索引擎应运而生。通常评价搜索引擎的性能的标准是用户对搜索引擎的满意度,而用户在使用搜索引擎进行搜索时,一般会优先选择点击排名相对靠前的网页,因此对搜索引擎的搜索结果进行合理的排序会显著提升搜索引擎的用户体验。知名度最高的搜索引擎Google采用的网页排序算法就是Page Rank排序算法。Page Rank算法被广泛应用于度量网页的重要性,但是传统的Page Rank算法在计算过程中忽略了一些可能影响网页重要性的因素,存在多方面的缺陷。本文基于网页相似度对Google著名的Page Rank排序算法进行研究。首先阐述了Page Rank算法的研究背景及意义和国内外关于Page Rank算法的研究现状,介绍了搜索引擎的发展历程、工作方式和评判标准,然后着重剖析了Page Rank算法原理。经典的网页链接分析算法Page Rank将“每个链接代表一个网页作者对所指向的网页的一种独立的认可”作为算法的前提条件,但是传统的Page Rank算法的一个主要缺陷是将一个网页的Page Rank权值平均分配到所有的出链上,并没有考虑网页的语义信息,以此为基础提出一种基于网页相似度的Page Rank算法的改进,通过相似度权重来分配Page Rank权值,相似度包含网页文本相似度和网页链接相似度两部分。由于考虑了出链页面与目标网页的相似度信息,从而不仅提高网页的重要性的准确度,而且使得检索到的排序结果的查准率更高。最后,为了验证改进算法的性能和效率,本文实验部分借助开源搜索引擎Iveely在互联网真实环境中请一些用户进行实验测试。小范围的用户测试结果表明:融入了网页文本相似度和网页链接相似度的改进算法之后,提高了搜索结果的查准率和用户满意度。
其他文献
P2P是在底层物理网络上构建的一个逻辑网络,因此P2P的逻辑网络拓扑结构和底层的物理网络拓扑结构存在很大的差异。在逻辑网络中相邻的结点,在物理网络中却可能相距甚远。这种
目前移动运营商正在从移动通信专家向移动信息专家转型,随着移动运营商角色策略的转变,整个增值业务市场也在转变,移动运营商已经开始对市场进行整合,同时开始自营业务的试探
随着计算机技术的飞速发展,虚拟教学实验得到了越来越广泛的应用。然而,传统虚拟实验的开发模式大多是从某一具体课程出发而开发的,开发周期长,开发手段各异,形成的教育资源不能被
语义电子商务,即基于语义网技术的电子商务。随着网络技术的发展以及信息量的快速增长,以传统互联网技术为基础的电子商务,在实现电子商务领域中B2B,B2C之间信息的快速交换,
垂直磁记录的出现加速了硬盘存储密度的增长,为了保证磁头读取信息的正确性和稳定性,磁头与盘片之间的距离越来越小,已经达到几个纳米的飞行高度。在这种超低飞高的状态下,滑
过去的二十年中,计算机的运用需求不断增加,数字图像处理正被越来越广泛地运用于人们的生活。CT成像、气象卫星图像、安检设备等应用已逐渐被人们所熟知。 图像的特征研究是
智能视频监控作为模式识别领域的重要分支,人们对它的研究与应用越来越广泛,其主要研究的是视频中的运动物体,对运动目标进行检测、识别和跟踪。而人作为视频中最受关注的运动目
实时任务在实际应用中通常需要以独占方式同步访问共享资源,但是由于资源的独占性导致高优先权任务运行时往往被低优先权任务阻塞,从而产生优先权反转,难以满足任务的实时性
XML已经成为网络上数据和信息交换的事实标准。模式匹配在许多领域中扮演着重要的角色,如模式集成、数据仓库、电子商务、数据集成等。但是由于模式表达形式的多样性、模式类
桌面虚拟化技术可为计算机桌面的大规模快速分发和管理、按需满足不同用户的应用请求提供强大的支持,而其后台核心则是基于虚拟机的大规模虚拟集群。随着这项技术在各种大型