基于链接结构的中文网页排序算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:osinfobyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网上存在着各种各样的资源,而且信息量仍在快速增长着。在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。搜索引擎的出现,使用户搜索信息的过程变得更为方便快捷,它已成为用户在互联网中收集信息不可缺少的工具。但是由于网络上的资源缺乏统一的规范,大量网页的结构性、组织性比较差,并且包含的内容涉及到广泛的领域,搜索引擎返回给用户的结果往往不能很好地满足用户的需要。当搜索引擎最终以一定的顺序将搜索结果返回给用户时,用户希望能方便快速地查找到自己需要的网页。本课题研究的目的就在于把符合用户检索需求的网页更好的排在搜索结果的前面,得到较高的查准率,使其符合用户的浏览习惯。本课题对中文网页的特点进行了分析,并在分析传统的信息检索排序方法和现在常用的基于网页链接结构排序算法优缺点的基础上,引入了锚文本和网页的相关度改进PageRank算法。本文的主要研究内容如下:(1)分析原始网页内容,提取出网页中所有链接和链接文本,建立网页地址索引库。(2)分析网页编码方式,净化网页内容,利用VSM模型计算锚文本和网页的相关度。(3)通过建立链接文本的倒排索引库,解决了对不能被爬虫爬下来的网页的索引问题。(4)根据网页的超链接结构特性,建立网页链接库,在此基础上实现离线计算的PageRank和改进后的PageRank算法。(5)模拟用户的输入,对返回的目标网页按PageRank值排序,并对改进的算法和原算法进行比较分析和查准率评价。本文的实验结果表明,网页排序在搜索引擎应用中占有重要的地位,它能指导用户方便地找到所需要的网页;基于主题的PageRank排序算法,引入了锚文本和网页的相似度分析,得到了更好的查准率,提高了网页排名的准确性。
其他文献
微博平台的产生与发展,使其用户可以在微博平台上根据自己的意愿收听自己感兴趣的内容。不仅如此,微博平台也成为了其用户分享、交流以及传播信息的最主要社会媒体。面对微博
无线定位业务LCS是随着移动通信技术的进步而发展起来的增值业务,移动台定位技术对于蜂窝网络,特别是3G网络的重要性已得到广泛认同。国内外许多公司、科研院所都对定位方法原
新一代软件构架模型SOA的流行,使得基于Web服务的企业级应用不断增加,随之而来的是Web服务数量的成倍增长。因此,如何更有效的重用这些已有的Web服务成为当今研究的热点。使用We
点对点(P2P)网络是一种具有较高扩展性的分布式系统结构,它打破了传统的客户/服务器(C/S)模式,将互联网的集中管理模式引向分散管理模式,在网络中的每个节点的地位都是对等的
如今信息技术飞速发展,人们对多媒体,特别是包含有大量信息的数字视频的需求也越来越大。由于计算机技术、通信技术、微电子技术、网络技术的进步,实时视频压缩和传输成为可
超宽带(UWB)作为一项新兴的无线定位通信技术,以其传输速率高、发射功率低、多径分辨率高、保密性好、抗干扰能力强等优点,受到越来越多的关注。在无线传感器,雷达,定位等领
动态提供计算和服务环境以满足开放环境下多变的应用服务需求,是现代计算技术的一个热点问题。传统的计算环境由存储部件与计算部件静态绑定形成,许多计算环境按需部署研究都采
聚类是数据挖掘领域中重要的技术之一,用于发现数据对象中未知的分类。聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以将其作为数据挖掘中的一个预处理
设备驱动程序是实现计算机与外部设备间正常通信的重要保障。本文介绍并且简要分析了PCI总线和USB总线协议;分析了WDM驱动程序的结构、工作原理和特点,介绍了WDM驱动程序设计中
本文以智能温室为研究对象,对智能温室的控制算法进行研究。温室环境系统是一个多变量的大惯性非线性系统,且有交连,时滞等现象。很难对这类系统建立数学模型及用经典控制方