基于Web结构挖掘的HITS算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:yangjianglong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web是一个巨大的信息资源库,提供了各种各样的信息服务,随着网络的普及和网络信息的迅速膨胀,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HITS算法是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。Web结构挖掘是Web数据挖掘的一个重要方面,其重点在于信息检索,链接分析技术在该领域中扮演着极为重要的角色,并已经被成功的用于分析Web超链接数据来确定权威的信息源。在各种对网页进行链接分析并提取分组的算法中,HITS(Hyper-text-Induced-Topic Search)算法是应用的最为广泛的。本文对HITS算法进行了重点研究,对传统HITS算法易产生主题偏移问题这一缺点进行了分析,并针对这一问题,使用根集向量投影法和基本集缩减法对HITS算法加以改进,接着在根集向量投影法的基础上,提出了根集向量加权投影法和基本集向量加权投影法,以更好的实现权威网页搜索。对改进后的HITS算法与传统HITS算法进行了实验比较,发现根集向量投影法可以有效的避免主题偏移现象,基本集缩减法可以大大的缩减算法运算量,而根集向量加权投影法和基本集向量加权投影法则可以在使权威网页的提取结果更为合理的基础上,有效提高算法的灵活性。
其他文献
中国邮路问题是管梅谷教授在1960年第一次提出来的。它描述了一个极具现实意义的问题:一个邮递员负责一个地区的信件投递,每天从邮局出发,走遍该地区的所有街道再返回邮局,问
本文提出了一种基于Snort(sniffer and more)的网络入侵检测系统,Snort是一个强大的轻量级的网络入侵检测系统,它具有实时数据流量分析和日志IP网络数据包的能力,能够进行协议分
随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的
软件复用是解决软件危机的有效途径,而软件构件开发是实现软件复用的关键因素。在基于构件的软件开发中构件的分类和检索是实现软件复用的基础。基于构件的软件开发能够有效降
图像融合技术作为多传感器信息融合的一个非常重要的分支--可视信息的融合,近年来,引起了世界范围内的广泛关注和研究热潮。图像融合就是对多个传感器采集到的关于同一场景或
医学图像可视化是当前一个研究热点问题,它将计算机图形学和图像处理技术运用在生物医学工程中,在医学诊断、手术规划及模拟仿真等都方面都有着广泛的应用。体绘制技术已经成
电子商务的飞速发展和人们外出购物时间的急剧减少,网上购物逐渐成为了一种趋势,越来越多的人开始认识、了解以及使用网络来进行所需物品的采购,这为我国物流产业的长足发展提供
随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中
嵌入式数据库是近些年才兴起的一项新的数据库技术,它以目前成熟的数据库技术为基础,针对嵌入式设备的具体特点,实现对移动设备和嵌入式设备上数据的存储、组织和管理。
在互联网上提供大规模的VoD(视频点播)服务是一项具有挑战性的工作。传统的视频点播放方式是基于C/S(客户端/服务器)模式,面临网络带宽受限的问题,服务器很容易成为瓶颈。P2P