融入语义相似度的HITS算法研究及实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:sbtakkd521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet是一个庞大的、全民共享的信息资源库。用户希望通过这个数据集,检索到与自己需求相关的权威信息。因此,如何有效、准确地从Web资源里找到用户所需的知识成为信息检索和数据挖掘领域的一个重要课题。搜索引擎的出现,为解决这个问题提供了一条崭新的思路。传统的搜索引擎算法主要利用链接分析技术,搜索出的结果在内容上容易出现偏离。本文在链接分析技术的基础上,对传统的超文本主题排序算法(Hyperlink-induced Topic Search, HITS)进行了分析与研究。通过实验发现,由于HITS算法没有充分考虑页面的语义信息,很容易受到无关链接的影响,产生主题偏移和垃圾链接。针对HITS算法的不足,本文提出了一种基于HITS算法的改进算法——Sim-Hits算法。Sim-Hits算法在网页相关度计算过程中融入了网页的语义信息:考虑超链接标签在源网页的DOM树结构中所处的位置信息,以超链接相关文本扩充锚文本,形成概括目标网页内容的锚相关(Anchor-Related)文本;基于《知网》语义字典计算链接的锚相关(Anchor-Related)文本与特定查询主题的相似度值,并将该值作为源网页赋予目标网页的主题相关度权重,运用于加权的I/O操作中进行链接分析,使主题相关度较高的目标网页得到较高的排序分值。最后,本文实现了一个模拟的实验方案,对上述算法进行验证。测试结果表明,Sim-Hits算法与HITS算法相比,弥补了HITS算法的不足,能够更有效的过滤掉无用网页,更好的筛选出权威网页,在一定程度上抑制了主题漂移现象,提升了搜索结果的用户满意度。
其他文献
随着科学技术的进步,视频监控系统正逐步朝着数字化、网络化、智能化的趋势发展。而达芬奇(DaVinci)技术的出现加速了这一进程的发展。达芬奇技术包括高性能的处理器、高度集
随着数据库系统在全球范围的广泛应用,分布式数据库系统的地位也越来越高。分布式事务的提交一直是分布式数据库研究的主要内容。其中的二阶段提交协议,由于其简单有效的特性
在机器学习领域中,标记实例是个代价很高且耗时的工作。作为机器学习领域的重要研究方向之一,主动学习旨在根据选择策略从无标记实例中选择信息量最大的部分实例交由专家标记
H.264又被称为MPEG-4-Part10,是2002年由国际电信联盟组织ITU-T的视频编码专家组(VCEG)和国际标准化组织ISO/IEC的活动图像专家组(MPEG)联合制定的视频编码新标准。它在继承
说话人识别技术是一种通过对目标说话人的语音进行处理与分析,从而判断出该说话人身份的技术。目前,说话人识别作为人与计算机进行交互的一种智能接口有着非常广泛的用途,它
本文研究了现有的动态取证技术,总结了动态取证过程中存在的问题,给出了将IDS、蜜罐系统、多Agent技术结合起来运用到计算机动态取证模型中的解决方案,构建了一个基于混合技术的
随着网络技术的飞速发展,信息借助于网络快速的传播,高速广域网和宽带城域网等正在企业通信网络中进行广泛的建设,促进了现代社会中企业信息化水平的提高,增强了企业的市场竞
随着信息技术与互联网的迅速发展,信息容量迅速增长,大量的数据资源存储在各类信息载体中。在这些庞大的信息资源中,蕴含着大量有价值的知识。面对浩瀚的数据海洋,人们难以获
学位
随着网络的日益普及,信任在P2P网络交互中的地位越来越重要,完善的信任模型系统给网络实体间的交互提供了重要支撑。但P2P网络中的信任模型目前仍存在着多种缺陷:首先,单一的