论文部分内容阅读
基于多项式的一元语言模型不能表示文档中的突发(Burstiness)现象,而基于Dirichlet分布的语言模型能够较好地处理突发现象.本文分析和讨论了几种基于Dirichlet分布的语言模型,并以DCM模型为基础,分别对文档和查询项进行语言建模,然后采用KL-divergence方法来度量文档模型和查询项模型的相似度.在TREC数据集上的实验表明,与基本的模型相比较,采用DCM模型能够提高信息检索的平均精确度.