论文部分内容阅读
随着互联网的发展,信息检索技术广泛地用于搜索任务。相比于传统的Unigram概率模型,Bigram相关性建模是提高检索精度的重要技术手段,但由于相关计算复杂性过高,难以应用于大规模语料检索。综合研究现状,现有Bigram模型的研究存在两大问题。一是效率问题。它们沿袭了Unigram模型的类TF-IDF形式,需要引入背景模型来衡量词项的相对相关性,保证检索精度。由于Bigram的背景模型计算需遍历整个语料的索引结构来获取词项邻近性信息,导致检索信息效率显著降低,响应时间成倍增长。二是精度损失。现有Bigram模型沿袭了Unigram模型的词项分布假设2-Poisson分布,而在实际应用中,2-Poisson分布并非是描述多元词项分布的最佳统计模型,因而基于其推导Bigram模型会导致潜在的检索精度损失。在此基础上,本研究结合多元词项分布验证不依赖背景模型的Bigram相关模型,希望新模型在有效降低计算复杂性的同时,能够显著提高Bigram检索模型的精度。本研究可以进一步推动Bigram检索模型的理论研究,其成果可望提升面向大规模语料检索应用的精度和效率。 本文首先介绍了Bigram检索模型方面的研究背景、研究意义和国内外研究成果,在此基础上,对Bigram检索模型的相关理论和技术进行了全面的研究与分析,总结了目前相关领域的研究困难与不足。其次,本文深入研究Bigram词项在多个大规模TREC语料中的分布,实验结果表明,卡方分布,指数分布,韦伯分布均能很好的拟合数据集中的Bigram词项频率分布。接下来,在此基础上提出了结合多元词项分布的Bigram检索模型,这种检索模型具有不依赖背景模型和拟合多元词项分布的优点。并将其与经典的BM25模型和MRF(马尔可夫随机域模型)进行对比实验。实验结果表明,结合多元词项分布的Bigram检索模型,相比BM25模型具有更高的检索精度,且能接近或超过MRF模型的检索精度,并比MRF模型有效地提高了检索速度。最后,总结了本文在Bigram词项分布拟合和无背景检索模型方面的主要研究成果和创新点,并展望了未来的研究工作。 本文的主要学术创新和贡献包括以下三个方面。第一,研究Bigram词项频率分布,得到了卡方分布,指数分布,韦伯分布均能较好的拟合Bigram词项频率分布的结论。第二,基于以上词项分布研究提出了的新的无背景Bigram检索模型。第三,在标准测试语料上验证了以上新Bigram模型的可行性。本文的研究成果对面向大规模语料应用的Bigram检索建模研究具有重要的参考价值,可以有效提高大规模语料检索的精度。