一种基于重叠聚类的查询扩展算法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:scetc203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,通过搜索引擎或者Web网络来获取信息,已经发展成为人们工作和生活的习惯。由于用户查询通常仅仅由若干个单词组成,导致查询不能清晰准确的表达用户的需求;同时由于网络上的资源具有变化快、更新快、丰富多样和分布广泛等特点,加大了检索的难度,使检索的结果不能令用户满意。通过反馈信息对查询进行扩展能够有效的提高系统的性能,因此反馈技术和查询扩展技术一直都是学者们研究的重点。本文通过对查询扩展技术中的反馈模型进行研究分析,发现伪相关反馈模型采用的反馈文档集中往往存在着一些与查询不相关的文档(噪音),这些噪音使扩展后的查询偏离了原查询所表达的信息。为了克服这个缺点,本文提出一种基于重叠聚类的查询扩展算法。本算法通过对伪相关反馈模型中的前n个文档进行重叠聚类分析,提取出与查询相关的文档作为反馈文档。重叠聚类算法与knn等经典的聚类算法不同,它的结果是形成可以重叠的簇类。本文利用重叠聚类这一特性,发现中心文档,然后根据中心文档自动设定反馈文档的窗口大小。中心文档是同时出现在若干个簇类中的文档,一个簇类代表一个查询主题,中心文档代表了查询的若干个主题,因此中心文档与查询的相关度大于一般的文档。因此本算法不仅提高了扩展源的质量而且克服了伪相关反馈模型过度依赖反馈文档规模的缺点。同时本文算法采用Apriori算法代替传统的概率模型从反馈文档中挖掘出扩展词,提高了扩展词的质量。最后通过实验验证本文算法的检索性能,结果表明该算法不仅能够在一定程度上改善系统的检索结果,并且有较好的健壮性;同时分析出反馈文档的规模、扩展词的个数、中心文档的阈值以及新查询表达式中参数a的变化对本文算法性能的影响。
其他文献
随着网格技术的不断发展,越来越多的异构资源参与到网格中,这些资源需要以众所周知并且一致的方式进行交互和运转,才能实现资源的高度共享和协同工作,为此,需要建立一些相关
近年来,随着计算机技术和网络的发展和普及,信息化已经影响到社会的各行各业,正在蓬勃发展的电子政务就是其发展的结果。本文以A省纪委警示训诫系统的开发为背景,比较详尽地研究
人体生物认证在现实生活中起着重要的作用,而虹膜作为人体的重要特征已经成为身份识别的重要特征。本文在虹膜图像预处理、虹膜特征提取与编码、模式匹配与分类器设计等方面
随着生产的发展,机械故障诊断的重要性越来越明显。传统的诊断技术和理论方法对于具有多故障、多过程、突发性故障的现代化机械设备,往往显示出较大的局限性,难以从大量的故障信
随着计算机网络技术的不断发展,网络安全问题变得日益严重,防火墙技术是保护网络安全最有效的技术之一。基于流过滤的防火墙是一种新型的防火墙,它不仅能像包过滤防火墙那样
密码学(Cryptology)是信息安全的核心技术,密码函数的设计与安全性分析成为现今研究的热点之一。密码算法按其加密方式可分为流密码和分组密码。它们的安全性与其核心设计部
近几年来,基于移动对象位置,为用户提供快捷便利信息的移动信息服务受到服务提供商和用户地追捧。如何有效管理移动对象的位置信息已成为市场关注的焦点,同时也是数据库领域
随着人类对自由通信的无限渴望,近几年来网络通信的发展与日俱增,尤其是无线网络技术的发展。人们可以通过配有无线接口的变携式移动计算机或者其他带有无线传感器的网络设备进
当前,随着人们生活节奏的加快和工作压力的增加,心脏系统疾病发病率持续上升,且患者年轻化趋势越来越明显,它已经成为人类生命健康的主要威胁。医院现有的软硬件资源很难在短
1982年波兰学者Z.Pawlak提出了粗糙(Rough)集。它是一种处理不精确和不完备信息的数学工具,而且不依赖于数据集之外的任何附加信息。经历了近20年的发展,已经在理论和应用上取得