基于超链接的WEB结构挖掘算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lang_tianhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet/Web技术的快速普及和迅猛发展,其为人们提供了丰富的信息资源的同时,它所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给Web资源的发掘造成了相当的难度。因此,将数据挖掘技术和Web结合起来,进行Web数据挖掘也就随之成为了解决Web挖掘问题的重要途径。本文通过对经典的Web结构挖掘算法HITS和PageRank的研究学习,针对HITS算法中完全只考虑web页面之间的超链接分析而忽略的web页面的内容,从而导致分析结果出现主题偏移和种种的不足,提出了一种结合超链接分析和内容相关性分析的关于HITS的改进算法,该算法通过对不同web页面进行内容分析并赋予链接之间不同的权重来实现对HITS的改进,并最终通过实验证明该新算法的有效性。最后我们还针对HITS算法和PageRank算法中在对页面节点进行排序时存在将页面权威性与枢纽性完全分开或忽视了页面的枢纽性,造成信息的丢失等问题,通过重新设定PageRank算法中的个性化矢量因子E,探讨建立在此基础上的HubRank算法,并通过实验验证了该算法对该问题的有效性。
其他文献
创建逼真的三维人脸模型一直都是计算机图形学、计算机视觉和图像处理领域中一个极具挑战性的课题,随着在虚拟现实、视频会议、影视制作、以及计算机动画等方面应用的发展,近
随着电子政务建设的不断发展,电子政务建设和应用过程中的信息安全问题已经成为电子政务建设中的急待解决的一个突出问题。信息安全是建设电子政务的基础和关键。电子政务信息
随着医院信息建设的不断发展,各临床科室和医技检查科室对于业务流程优化、以患者为中心的信息共享及存贮的需求越来越强烈。而现有的各检查科室系统由于开发时间早,功能和性能
随着基于Internet商业应用的迅速发展,XML(eXtensible Markup Language,可扩展标记语言)已经成为Internet上数据表示和数据交换的标准格式,提出了对XML数据查询的要求。关系数据
互联网的发展,极大的推动了整个社会的发展,在社会、经济、教育和娱乐等各方面都产生了重大的影响。互联网与人们的生活越来越紧密,人们通过网络互相交流,共享一些资源,互联
随着市场竞争规则的变化,企业在提升产品质量的同时,越来越注意提高客户服务的质量,以提高企业的核心竞争力。中小型企业资金有限,要建立功能齐全的呼叫中心投资较大。近年来移动
为了提高WebGIS的响应速度,通常会采用瓦片地图技术。越来越多的地理信息系统(GIS)平台开始采用分布式数据库HBase来管理瓦片技术施过程中产生的大量以小文件形式存在的瓦片。瓦
随着经济的发展和人民生活水平的提高,需水量大幅度上升,而且对水质提出了更高的要求。饮用水水质规范中,浊度是一项重要的指标,直接关系到水质的好坏,而混凝投药过程中混凝剂的投
随着因特网的迅猛发展和广泛应用、无线移动通信技术的成熟发展和计算机处理能力的不断提高,基于移动计算的新业务和应用不断涌现,业已成为信息技术领域科学研究和产业发展的重
现代企业面临越来越激烈的市场竞争,为了取得竞争的优势,企业必须不断地调整和优化业务过程。传统的工作流管理系统已经不能很好的满足企业管理业务过程的需要,为此,近年来学