信息检索模型性能改进研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yzoryanzii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,海量的信息在满足人们信息需求的同时,也为快速准确地定位相关信息带来了空前的挑战,而信息检索技术的提出正是为了解决这一问题。信息检索的任务是根据用户的信息需求,从语料集中检索出与用户查询相关的文档。传统的信息检索模型如向量空间模型、概率检索模型和语言模型等在文档相关性计算时主要考虑了三个统计变量,包括词项频率、文档长度和词项在语料集中的特异性。统计变量的计算需要使用到关于词项和文档的全局统计信息,如词项的文档频率、文档集频率、语料集的平均文档长度等。然而,对于规模和内容动态变化的大规模语料集而言,检索模型所需全局统计信息的计算和存储是极其昂贵的,尤其在软硬件条件受限的环境下,全局统计信息的计算时间、检索系统索引信息的存储空间、查询的响应时间等均会受到较大冲击,从而严重影响检索系统的用户体验。此外,传统的信息检索模型在文档相关性计算时主要基于词项的精确匹配,并未考虑到查询和文档间的语义关联,语义信息的引入可望进一步提高模型的检索效果。因此,本文从如下两个方面对传统的信息检索模型进行了改进:1、如何提高面向大规模语料时概率检索模型的性能。2、如何利用语义信息提高传统模型的检索效果。  在传统的概率检索模型中,文档相关性的计算主要基于词项频率的分布来估计不同查询词项对文档相关性评分的贡献,且经典假设认为词项频率服从泊松分布。本文假设随着语料规模的增大,非频繁查询词项的频率分布逐渐趋同,且除了经典的泊松分布,还存在其它可用于词项频率建模的分布假设。基于上述假设,本文提出了两种不同形式的无全局统计信息的概率检索模型,即基于对数框架和基于线性框架的无全局变量模型。由于未使用全局统计信息,相比于传统的概率检索模型,本文提出的无全局变量模型具有更高的检索效率。此外,本文在五个不同规模的标准TREC语料集上对模型的效果进行了验证,实验结果表明,随着语料规模的增加,本文提出的无全局变量模型的检索效果逐渐提高,尤其在大规模和超大规模语料集上,其检索效果优于传统的概率检索模型。  近年来,自然语言处理领域的研究成果表明,词嵌入(word embedding)模型可用于生成词项和文档的分布式语义向量表示,其中,分布式语义向量指低维度的实值向量。目前,已有大量的研究者尝试在信息检索领域使用词嵌入模型来提高传统模型的检索效果。已有研究表明查询和文档间的语义关联可由其向量间的余弦相似度(Query-to-document similarity)进行度量,然而,该模型无法解决语义向量间的多重相似度问题,导致模型效果的提升有限。为了解决上述问题,本文提出了一种基于文档间相似度(Document-to-document similarity)的评分方法,该方法利用伪反馈文档计算返回文档的语义相关度评分。生成文档的语义相关度评分后,本文采用两种将语义相关度评分与传统检索模型相结合的方法来计算文档最终的相关性评分,包括基于线性插值的模型和基于文档先验概率的语言模型。实验结果表明,相比于传统的信息检索模型,本文提出的语义模型在检索效果上有显著提升。为了进一步验证提出的语义模型在特定领域的检索任务上的效果,本文在医疗决策支持任务中对提出的语义模型进行了直接应用。实验结果表明,本文提出的语义模型在医疗决策支持任务中的检索效果优于在该任务中报告的最好结果,进一步表明了本文语义模型的有效性。
其他文献
移动实时事务本质上是实时事务,它具有一般实时事务应具有的特征,如定时性、关键性、结构复杂性、功能替代性、结果补偿性等.但由于受移动计算环境的影响,它又具有分布性、频
物流信息系统(LIS:Logistics Information System)是现代物流作业的支柱.相对于传统物流,现代物流的管理与运作表现在系统性、智能性、自动化等多个方面.邮政物流信息系统正
无线多跳网络的效益优化与资源分配是无线网络研究的一个关键问题,近年来得到了越来越多的关注。针对这一问题,通过跨层优化方法实现网络效用最大化,进而联合优化网络性能、资源
随着可扩展和开放的计算一半的需求,分布式应用正扮演着日益重要的角色.当应用从企业环境转移到Internet上,安全和信任机制的缺乏所带来的危害逐渐显露出来.在电子商务、协同
本文首先介绍了用于认证的数字水印系统的一般框架,对目前提出的用于认证的各种数字水印方案进行了分析,然后围绕用于认证的半脆弱水印技术做了以下几部分的工作:1、提出一种
第一章介绍了计算机安全、网络安全、入侵检测的一些基本概念及相关术语.第二章首先介绍了入侵检测的分类并详细介绍了各种异常入侵检测及基于特征的入侵检测方法,然后介绍了
Patchwork算法是一种典型的空域水印嵌入方法.目前也有人尝试将这一办法应用于变换域中,但是有关文献很少.特别是在将其与音频水印应用相结合的研究还显得不够.Patchwork算法
该文在参考了各种馈线自动化方案后,阐述了自己对馈线自动化的理解,在比较和参照了国内外同类装置的基础上,设计开发了一种以TMS320F206DSP为核心的FTU,相对于传统的基于普通
实时系统需要具备容错功能的观点,已经被实时与容错这两个领域的研究者所广泛认同?而分布处理和分布控制技术显示的广泛应用前景,各种分布的软硬件系统的大量开发使用,加之分
人类通常以创造新概念或拓展旧概念的方式来更新知识体系,维基百科是这个知识体系中最具代表性的缩影和镜像之一。近年来的研究发现,在不断演化的知识库中蕴含着有价值的概念关