基于时间链接分析的页面排序优化算法研究

来源 :江苏大学 | 被引量 : 5次 | 上传用户:xiaohongm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web结构挖掘是从WWW的组织结构、Web文档结构和链接关系中推导知识的过程。目前基于网络的组织结构和链接关系进行挖掘的算法主要有两种,其中有代表性的算法主要是Larry Page等人设计的PageRank算法。通过分析和研究PageRank、HITS,TimedPagrank等基于链接结构的搜索结果排名算法,发现传统的页面排序算法偏重于旧网页,使得一些旧的页面经常出现在检索结果的前面。本文引入时间链接分析,使用爬虫抓起页面时HTTP协议反馈回来的修改时间作为页面和链接的时间,并综合考虑页面的出入链接个数和时间来计算页面的权重值。所开发出的WTPR算法,能使新网页集在排序中上升,同时,高质量的旧网页比普通的旧网页能获得较高的排序值。本文研究页面排序算法,主要做了如下工作:首先介绍Web结构数据挖掘,对Web链接分析的工作原理及相关定义进行了详细的介绍,分析了Web链接分析的研究现状和主要工作,为下面章节介绍基于超链接分析的页面排序算法打下了坚实的基础。其次针对PageRank算法存在的这些缺陷,引入时间链接分析,通过分析爬虫Websphnix抓起页面时HITP协议反馈回来的网页最后修改时间来表示网页年龄,并在此基础上对网络的组织结构和链接质量以及时间序列进行挖掘。根据网页年龄,提出了基于网页年龄衰减的页面排序算法Age-WPR,并进行了实验验证。继而针对静态网页年龄不能满足当前网络的动态变化,以及页面时间的不确定性,本文提出了兴趣区间的概念,并具体定义了动态网络环境下节点和链接的时间戳,并在此基础上提出了新鲜度概念,以区分新旧页面,然后结合网页节点质量因子开发出WTPR算法,从而克服现有Web超链接分析中的不足。最后概要介绍了java版页面排序模块的实现过程,并给出了PageRank计算的大体思路,最终根据改进的页面排序算法对网页快照数据进行实验验证,通过本程序验证,确定了WTPR算法中的权重因子,并且这些优化策略改进了搜索引擎的页面排序结果,同时保证了新旧两种页面的排序优化。
其他文献
语音通信对实时性和连续性都有较高要求,但现在的网络(IPv4)只提供一种尽力而为(Best-effort)的服务,网络拥塞的发生会导致丢包和延时,从而使得话音质量严重下降,因此为了确
随着经济竞争的不断加剧和市场的不断扩大,如何有效地支持跨部门、跨企业之间的业务过程集成,己成为新一代企业信息系统面临的重大挑战。当前,Web服务的逐步成熟以及业务规则
随着人类基因组计划(Human Genome Project)以及分子生物学、信息科学的发展,不同学科的生物医学数据“爆炸”式增长。如何整合这些数据资源发现其中隐藏的知识一直是系统生
伴随着新一轮信息技术的浪潮,信息技术的方法思想越来越渗透到各行各业中,正在慢慢改变很多的行业。银行业作为一个传统的行业,随着信息技术的不断变革也在不断的发展。目前
汽车行驶安全是交通发展的永恒主题。随着汽车保有量的迅速增加,公路交通事故发生率居高不下,交通安全问题日益突出。汽车纵向避撞预警系统能够及时地向驾驶员提供前方危险警
Web服务的出现是Internet技术发展的一次革命,Web服务技术作为一种新型的面向服务的分布式计算模式,可以方便地实现Internet上跨平台、语言独立、松散耦合的异构应用的交互和集
随着中国汽车市场的高速增长,使得一系列产业得到了迅猛的发展。其中最直接的就是汽车营销业。汽车销售企业掌握的资源总是有限的,要想在竞争中快速制胜,只有充分发挥各种竞争的
搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人们通常无法用简单的几个词来描述
随着数字可视化和网络技术的不断发展,医学图像信息在现代医学中的临床诊断、教学科研等方面的作用日益突现,相关技术和系统的研究已经成为当前数字图像研究领域中的一个热点
随着计算机图形学和网络技术的发展,大量视频动画被制作并在互联网上传播。关键帧是一段视频中包含重要视频内容的一组离散的帧序列。基于关键帧的视频摘要技术被广泛应用于