论文部分内容阅读
概率检索模型是动态信息检索系统的组成部分。概率检索模型的任务是计算文档集合中各个文档的相关得分,其结果是检索系统返回的文档排序的主要依据。概率模型的性能优劣直接影响检索系统的效果。现有概率检索模型包括全局变量、文档内变量和检索词变量三部分。全局变量是概率检索模型的关键要素,由于计算全局变量需要对全部文档根据检索词进行索引。在实际的分布式检索系统中实时地建立、维护全局索引十分困难:复杂性高、系统消耗大。论文旨在通过探索词频在不同数据类型中的统一分布形式,对文档内变量进行建模进而构建不包含全局变量的检索模型,并在多个通用和专用数据集上对所提出模型的检索性能和鲁棒性进行评价。论文研究内容包括以下三个方面:
1.探究词频分布统一形式。论文在disk1(U)2,disk4(U)5,.GOV2以及W10G数据集上通过拟合探索了文档内变量的分布特点:研究表明相对于传统的对词频分布的2-Poisson假设,韦伯分布、伽马分布、瑞丽分布、x2分布以及指数分布都可以较好的描述词频的分布规律,其中韦伯分布和伽马分布的描述效果最好;本研究还在.GOV2,Blog06,Clue Web09上比较了各个分布在拟合中得到的参数的稳定性,实验结果表明韦伯分布、泊松分布在拟合中参数稳定性最好。
2.构建无全局变量检索模型。论文利用得到的分布规律对文档内变量进行精细刻画,以构建无全局变量的概率检索模型:通过利用随机距离模型框架(DFR)将词频分布形式纳入到检索模型中以精细刻画文档内变量;在此基础上,论文对得到的模型进行进一步简化,得到了不包含全局变量的概率检索模型。
3.评价新模型的性能和鲁棒性。论文在超过10亿网页的大规模数据集上测试新模型的检索性能以及鲁棒性:在大规模数据集的检索实验中,新模型表现出了良好的检索性能以及鲁棒性,其中根据韦伯分布所提出的W2dS模型在不使用全局变量的情况下,在检索性能上(MAP)能够达到甚至超过PL2,KL距离语言模型,BM25相关模型;在鲁棒性方面,W2dS的检索性能基本不随参数的变化而变化。此外,本研究还探索了新模型在专门领域的检索效果,实验表明新模型在专门领域检索中表现出了较好的适用性。
总之,论文研究了文档内变量的统一分布形式进而通过对文档内变量的精细刻画构建出无全局变量的检索模型。在多个通用、专用的检索数据集上的实验表明,新模型在检索性能和鲁棒性上达到或超过了现有主流模型。论文的研究成果改变了词项权重的传统建模方式:构建了一种不包含全局变量的概率检索模型,克服了现有检索模型依赖全局变量的局限,进而解决了在检索系统中全局变量的获得和维护的难题。