面向查询语句的扩展过滤及权重计算研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tomily98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,随着互联网的高速发展,信息无处不在。在这个“信息大爆炸”的时代,网络信息技术深刻地改变了人们的生活。如何让人们更全、更准地获取自己想要的信息,是一个亟待解决的问题。本文分析了查询概念扩展和查询词权重的国内外研究方法,并结合云模型理论,发现现有的研究方法忽略了概念和查询词分布二者中的不确定性知识。因此,本文从这两个方面挖掘了查询语句中蕴含的不确定性知识,进而对查询语句进行处理,使得检索结果更全、更准。针对查询概念扩展会引入杂质信息这一问题,本文提出了一种基于语义指纹的查询扩展语句的过滤方法。该方法利用语义指纹显式地刻画了概念的语义知识和云模型理论可以挖掘不确定性知识这些基本特性,定性分析语义指纹中的不确定特征,以完善概念的形式化表示。在语义指纹的研究基础上,生成了查询语句的云数字特征,从融合语义知识及不确定性知识的角度,计算出查询扩展语句与原查询语句的相似度,进而过滤掉与原查询语句语义不同的查询扩展语句。查询词对查询语句的贡献程度是不同的,而且研究发现这一贡献度可以通过查询词在查询域中分布的不确定性知识得以反映。本文提出了一种基于云特征权重的文档打分方法。该方法利用云模型理论挖掘查询词在查询域中分布的不确定性知识,经定性定量转换后,计算出查询域的查询词权重。在云特征权重研究基础上,从融入查询词分布特征角度上,改进了经典的概率模型BM25和BM25F的文档打分方法,来提高文档排序的准确率。本文在NTCIR-5中文信息检索标准测试集上对本文所提出的方法进行了相应的实验,并利用TREC评测标准对实验结果进行了评测。评测结果表明,本文所提出的方法能有效地改善信息检索的效果,也间接地证明了本文从不确定性知识的角度对查询语句进行两个方面处理方法的有效性。
其他文献
近年来,随着信息技术的迅猛发展和多媒体的广泛应用,多媒体技术已经成为人们研究的热点。而跨越视频底层特征与人类思维中的高层语义之间的语义鸿沟成为横亘在众多学者面前的亟
随着信息技术的不断发展,计算机网络在过去的几十年间经历了一个蓬勃发展的时期。网络的广泛应用已渗透到日常生活的各个领域,然而由于网络流量和网络,资源分布的不均衡性,伴
复述是用不同方式表达同样的语义,它不仅是人类自然语言中的一种普遍现象,同时对自然语言处理领域的许多研究都具有重要的意义。近年来,复述技术受到了越来越多的研究者的关
目前,与人类识别音乐的能力相比,计算机的识别能力非常有限。数字音乐和互联网技术的快速发展使我们可以获得大量的音乐作品,同时需要更加有效的音乐检索系统。乐器识别在复杂的
云计算预留是指在云计算环境下,利用云计算中大量的丰富资源,为满足用户对云服务的需求,在实际使用服务之前进行必要的接纳测试和预留,使用户在使用服务的过程中获得做够的服务,使
从海量的蛋白质序列数据信息中分析蛋白质的结构和生物学功能是后基因组时代的一个重大挑战。蛋白质折叠模式是描述蛋白质空间拓扑结构的重要概念。开发基于序列的蛋白质折叠
随着网络规模的不断扩大,用户对Internet服务质量要求的不断提高,传统的单播传输方式已经难以满足日益新起的Internet应用对有限网络资源的需要,组播服务作为一种节省网络资
离群数据的检测与分析已经成为数据挖掘领域中一个重要的研究方向,其在金融欺诈检测和网络入侵、疾病预防和控制、灾难气象预报等许多方面都有着广泛的应用。随着研究的深入,低
随着互联网的迅猛发展,电子商务也越来越普及和流行起来。随着信息量的爆炸式增长,在电子商务领域,信息超载问题增加了用户购买所需商品的难度,用户在找到自己需要的商品之前必须
近年来,随着移动通信、移动互联网、智能终端等技术的高速发展,移动上网用户日益普及,加之社会竞争压力的增大,人们渴望能够随时、随地进行任何方式的学习。在此背景下,移动