基于语言模型的信息检索系统研究

来源 :中国科学院研究生院(软件研究所) | 被引量 : 49次 | 上传用户:user180
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于语言模型的信息检索范型为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。针对该方法现存的问题,本论文从理论探讨和实际系统开发两个不同的角度来对以下内容进行了研究: (1) 提出了触发语言模型检索方法。通过“相关比率算法”从训练语料得到词汇在一定上下文中的同现词汇,在此基础上提出了新的算法来计算查询条件的触发词汇集合来明确查询条件的主题,并将相关参数引入文档语言模型形成触发语言模型。 (2) 探讨了Kullback—Leibler语言模型框架中的相关反馈机制并提出了两种相关反馈技术:混合语言模型方法和词汇重要性分布方法。这两种查询反馈方法都以一种比较自然的方式将相关反馈技术集成到了语言模型检索框架中。实验结果表明这两种方法明显地提高了检索系统的性能,平均查准率分别比Kullback—Leibler模型提高了19.89%和24.07%。 (3) 提出了基于主题语言模型的信息检索系统。首先我们提出了“改进的两阶段K-Means聚类算法”来对文档集合进行聚类,通过引入Aspect Model结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。 (4) 设计并实现了文本检索领域软件框架AFFIRM系统。在这个框架的设计中大量地采用了面向对象领域的设计模式技术来支持IR系统中检索模型、索引方法、查询反馈等关键组成部分的设计复用。同时该框架灵活的体系结构能够方便地支持新的需求的设计开发。 国内有关语言模型检索方法的相关研究尚未见报道,本论文对这一领域进行了有益的探索并有效地解决了现存的一些问题,为语言模型检索方法的深入理论研究以及实际应用系统的开发提供了良好的基础。
其他文献
摘要:根据少数民族医学生的特点,通过构建基于团队以问题为中心培养学生创新能力的基础医学教学模式,使医学生既对基础医学知识有系统完整的掌握,又能应用这些知识解释临床病理现象,通过提出问题和解决问题,提高学生的临床思维能力、主动学习能力和创新能力。  关键词:医学生;团队;以问题为中心;创新能力  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2019)35-0197-02 
本文旨在通过对典型建筑案例进行造型、空间和场所分析,梳理评析近年来出现的边塞文化风格建筑实践,为深入研究边塞文化的建筑传承实质提供思路和基础研究。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
近几年来,以3G 网络和 WLAN 为主要代表的无线网络技术取得了重大突破,3G网络能够在广域的范围内提供比较好的漫游服务,但其传输的数据速率以及网络带宽较小,而WLAN 能够提供较高
材料既是骨骼也是皮肤,既是表象也是内在。它就像皮肤一样,覆盖于骨骼和肌肉之外。事实上,它为基础结构的稳定提供了保护和支撑。现在的一些流行项目是如何表现材料的?就是通过这
人脸识别作为生物特征识别的一个分支,是国际上一个非常活跃的研究领域。人脸识别面临着许多的问题,比如在人脸图像的定位、人脸图像的归一化、人脸图像的特征提取、人脸图像
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正> 人所周知,任何资源只有开发出来才是真正的财富。人力资源也不例外,有待开发。随着科学技术和社会经济的发展,人们越来越认识到“人”是一切财富的源泉。而且有一定知识
国家中医药管理局为了加强中药特色技术传承人才培养,2014年和2015年开展了全国中药特色技术传承人才培训项目,笔者经过两年多的理论与实践的培训学习,参观了各地的GAP基地、
伴随着现如今工程建设项目的日益增多,投资规模逐渐变大,工程造价跟踪审计工作已经成为确保其整体质量和进度必不可少的一个环节。通过其展开跟踪造价审计,可以让工程造价控制变