论文部分内容阅读
随着信息技术的快速发展,海量的信息在满足人们信息需求的同时,也为快速准确地定位相关信息带来了空前的挑战,而信息检索技术的提出正是为了解决这一问题。信息检索的任务是根据用户的信息需求,从语料集中检索出与用户查询相关的文档。传统的信息检索模型如向量空间模型、概率检索模型和语言模型等在文档相关性计算时主要考虑了三个统计变量,包括词项频率、文档长度和词项在语料集中的特异性。统计变量的计算需要使用到关于词项和文档的全局统计信息,如词项的文档频率、文档集频率、语料集的平均文档长度等。然而,对于规模和内容动态变化的大规模语料集而言,检索模型所需全局统计信息的计算和存储是极其昂贵的,尤其在软硬件条件受限的环境下,全局统计信息的计算时间、检索系统索引信息的存储空间、查询的响应时间等均会受到较大冲击,从而严重影响检索系统的用户体验。此外,传统的信息检索模型在文档相关性计算时主要基于词项的精确匹配,并未考虑到查询和文档间的语义关联,语义信息的引入可望进一步提高模型的检索效果。因此,本文从如下两个方面对传统的信息检索模型进行了改进:1、如何提高面向大规模语料时概率检索模型的性能。2、如何利用语义信息提高传统模型的检索效果。 在传统的概率检索模型中,文档相关性的计算主要基于词项频率的分布来估计不同查询词项对文档相关性评分的贡献,且经典假设认为词项频率服从泊松分布。本文假设随着语料规模的增大,非频繁查询词项的频率分布逐渐趋同,且除了经典的泊松分布,还存在其它可用于词项频率建模的分布假设。基于上述假设,本文提出了两种不同形式的无全局统计信息的概率检索模型,即基于对数框架和基于线性框架的无全局变量模型。由于未使用全局统计信息,相比于传统的概率检索模型,本文提出的无全局变量模型具有更高的检索效率。此外,本文在五个不同规模的标准TREC语料集上对模型的效果进行了验证,实验结果表明,随着语料规模的增加,本文提出的无全局变量模型的检索效果逐渐提高,尤其在大规模和超大规模语料集上,其检索效果优于传统的概率检索模型。 近年来,自然语言处理领域的研究成果表明,词嵌入(word embedding)模型可用于生成词项和文档的分布式语义向量表示,其中,分布式语义向量指低维度的实值向量。目前,已有大量的研究者尝试在信息检索领域使用词嵌入模型来提高传统模型的检索效果。已有研究表明查询和文档间的语义关联可由其向量间的余弦相似度(Query-to-document similarity)进行度量,然而,该模型无法解决语义向量间的多重相似度问题,导致模型效果的提升有限。为了解决上述问题,本文提出了一种基于文档间相似度(Document-to-document similarity)的评分方法,该方法利用伪反馈文档计算返回文档的语义相关度评分。生成文档的语义相关度评分后,本文采用两种将语义相关度评分与传统检索模型相结合的方法来计算文档最终的相关性评分,包括基于线性插值的模型和基于文档先验概率的语言模型。实验结果表明,相比于传统的信息检索模型,本文提出的语义模型在检索效果上有显著提升。为了进一步验证提出的语义模型在特定领域的检索任务上的效果,本文在医疗决策支持任务中对提出的语义模型进行了直接应用。实验结果表明,本文提出的语义模型在医疗决策支持任务中的检索效果优于在该任务中报告的最好结果,进一步表明了本文语义模型的有效性。