面向大规模语料应用的Bigram检索建模研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong564
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,信息检索技术广泛地用于搜索任务。相比于传统的Unigram概率模型,Bigram相关性建模是提高检索精度的重要技术手段,但由于相关计算复杂性过高,难以应用于大规模语料检索。综合研究现状,现有Bigram模型的研究存在两大问题。一是效率问题。它们沿袭了Unigram模型的类TF-IDF形式,需要引入背景模型来衡量词项的相对相关性,保证检索精度。由于Bigram的背景模型计算需遍历整个语料的索引结构来获取词项邻近性信息,导致检索信息效率显著降低,响应时间成倍增长。二是精度损失。现有Bigram模型沿袭了Unigram模型的词项分布假设2-Poisson分布,而在实际应用中,2-Poisson分布并非是描述多元词项分布的最佳统计模型,因而基于其推导Bigram模型会导致潜在的检索精度损失。在此基础上,本研究结合多元词项分布验证不依赖背景模型的Bigram相关模型,希望新模型在有效降低计算复杂性的同时,能够显著提高Bigram检索模型的精度。本研究可以进一步推动Bigram检索模型的理论研究,其成果可望提升面向大规模语料检索应用的精度和效率。  本文首先介绍了Bigram检索模型方面的研究背景、研究意义和国内外研究成果,在此基础上,对Bigram检索模型的相关理论和技术进行了全面的研究与分析,总结了目前相关领域的研究困难与不足。其次,本文深入研究Bigram词项在多个大规模TREC语料中的分布,实验结果表明,卡方分布,指数分布,韦伯分布均能很好的拟合数据集中的Bigram词项频率分布。接下来,在此基础上提出了结合多元词项分布的Bigram检索模型,这种检索模型具有不依赖背景模型和拟合多元词项分布的优点。并将其与经典的BM25模型和MRF(马尔可夫随机域模型)进行对比实验。实验结果表明,结合多元词项分布的Bigram检索模型,相比BM25模型具有更高的检索精度,且能接近或超过MRF模型的检索精度,并比MRF模型有效地提高了检索速度。最后,总结了本文在Bigram词项分布拟合和无背景检索模型方面的主要研究成果和创新点,并展望了未来的研究工作。  本文的主要学术创新和贡献包括以下三个方面。第一,研究Bigram词项频率分布,得到了卡方分布,指数分布,韦伯分布均能较好的拟合Bigram词项频率分布的结论。第二,基于以上词项分布研究提出了的新的无背景Bigram检索模型。第三,在标准测试语料上验证了以上新Bigram模型的可行性。本文的研究成果对面向大规模语料应用的Bigram检索建模研究具有重要的参考价值,可以有效提高大规模语料检索的精度。
其他文献
神经网络一直是模式识别领域中研究的热点。由于神经网络具有非常好的学习能力和泛化性能,以及其统一的结构、易于硬件实现和类似生物神经系统的工作实现机制等优点,神经网络已
随着计算机技术和普适计算技术的发展,情感的表达与感知作为人与人交互的辅助手段愈发突显其重要性。近年来,人们不再局限于计算机单纯的使用功能,更加希望挖掘计算机的更多
已有模型资源的有效重用是计算机图形领域面临的重要课题之一。本文以常见的室内景物作为研究对象,利用体感设备针对景物采集所得的RGBD数据的分割结果在三维模型库中检索相
随着计算机技术的飞速发展和广泛应用,海量信息的开放与共享日益增强,信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所,保证和加强其安全性是迫切需要解决的研究
随着社会的进步和发展,人们不断涉及到很多复杂的实际应用问题。他们对计算机的计算速度和智能性提出了挑战。演化算法是用计算机模拟大自然的演化过程,特别是生物进化过程,来求
串匹配是计算机研究领域的一个经典问题,是许多网络安全系统的关键技术之一.随着信息量的急遽膨胀,应用系统要求更准确、更快速的对海量信息进行分析过滤,采用简单关键词来描
静校正在地震资料处理中十分重要。经野外一次静校正后,残余的静校正量可用剩余静校正方法求出。剩余静校正问题实质上是一个非线性优化问题。遗传算法是一种重要的非线性全
本文所研发的“基于GIS的多目标地球化学信息管理与综合评价系统”以国土资源部与上海合作开展的“多参数立体城市地质调查项目”为背景。 上海社会经济近十余年来发展速
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网
手绘草图既符合人们“笔录纸现”的思维表达习惯,又能充分利用计算机极强的信息维护功能,因此在人机交互领域具有强大的生命力。小型化、便携式和无线设备的快速发展极大地推动