论文部分内容阅读
基于语言模型的信息检索范型为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。针对该方法现存的问题,本论文从理论探讨和实际系统开发两个不同的角度来对以下内容进行了研究: (1) 提出了触发语言模型检索方法。通过“相关比率算法”从训练语料得到词汇在一定上下文中的同现词汇,在此基础上提出了新的算法来计算查询条件的触发词汇集合来明确查询条件的主题,并将相关参数引入文档语言模型形成触发语言模型。 (2) 探讨了Kullback—Leibler语言模型框架中的相关反馈机制并提出了两种相关反馈技术:混合语言模型方法和词汇重要性分布方法。这两种查询反馈方法都以一种比较自然的方式将相关反馈技术集成到了语言模型检索框架中。实验结果表明这两种方法明显地提高了检索系统的性能,平均查准率分别比Kullback—Leibler模型提高了19.89%和24.07%。 (3) 提出了基于主题语言模型的信息检索系统。首先我们提出了“改进的两阶段K-Means聚类算法”来对文档集合进行聚类,通过引入Aspect Model结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。 (4) 设计并实现了文本检索领域软件框架AFFIRM系统。在这个框架的设计中大量地采用了面向对象领域的设计模式技术来支持IR系统中检索模型、索引方法、查询反馈等关键组成部分的设计复用。同时该框架灵活的体系结构能够方便地支持新的需求的设计开发。 国内有关语言模型检索方法的相关研究尚未见报道,本论文对这一领域进行了有益的探索并有效地解决了现存的一些问题,为语言模型检索方法的深入理论研究以及实际应用系统的开发提供了良好的基础。