基于语言模型的段落检索系统

来源 :长安大学 | 被引量 : 2次 | 上传用户:forde88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型是一种全新的信息检索框架,其基本思想是:为每篇文档估计一个语言模型,然后计算在该语言模型下“生成”查询的概率,并根据此概率对所有文档进行排序。语言模型为信息检索领域提供了一种全新的有别于其他经典检索模型的评价文档的思路和机制,从而提升了人们对全文本检索的认知。许多实验也证明了语言模型是一个拥有良好理论基础并且检索效果出众的信息检索框架。虽然语言模型在信息检索领域已取得了巨大的成就,但它仍然还有很大的提升空间。本文将通过以下几点来对语言模型进行扩展:首先,将经典语言模型——查询似然模型,和段落检索相结合,并在此基础上提出一种全新的检索模型,即PLM模型。该模型不仅继承了查询似然模型理论完备检索效果出众等优点,又通过利用段落检索将文档的段落特征引入到文档的匹配过程中去,进而优化了查询似然模型在处理长文档尤其是那些跨域多个主题的长文档的能力。其次,为PLM模型引入启发式查询扩展方法,从而降低其词表不匹配的风险,进而达到提升其检索性能尤其是提升其召回率的目的。其中,启发式查询扩展方法是本文提出的一种全新的基于伪相关反馈技术的查询扩展方法。它不仅克服了以往相关反馈需要通过与用户进行交互才能进行查询扩展的弊端,还改变了经典查询扩展方法以词频共现度来进行选词的惯例,而是采取了一种基于语言模型的启发式选词策略来进行扩展词的选取。通过本文后续的实验,也证明了启发式查询扩展方法要优于经典的查询扩展方法,并且相较于经典查询扩展方法,其最大提升PLM模型的MAP幅度为54.7%。最后,为PLM模型引入聚类平滑方法,减轻其因数据稀松而导致对文档和段落的语言模型估计不准确的风险,进而达到提升其检索性能的目的。其中,聚类平滑方法是一种基于Dirichlet平滑方法的全新平滑方法。它除了继承Dirichlet平滑方法平滑效果稳定的优点外,还通过优化Dirichlet平滑方法引入到平滑过程中的文档统计特性,和重新选取文档模型的备选模型等方式,来提升Dirichlet平滑方法的平滑效果。而本文后续的实验也证明了聚类平滑方法达到了预期的目标,其相较于Dirichlet平滑方法来说,最大提升PLM模型的MAP幅度为61.6%。
其他文献
通过与传统的染色体加倍技术相比较,概述了用秋水仙素诱发离体组织染色体加倍的优点和具体的染色体加倍技术,探讨了秋水仙素诱发形成多倍体的细胞学机制,多倍体的鉴定方法,最后简
中国医疗卫生事业正面临前所未有的挑战,建设"高质量、高效率、低耗损"的医疗成本运行模式,增强核心竞争力将是每一个医疗机构的必由之路.临床路径就是这样一种简便、标准、
阐述了直流电法仪在煤矿井下掘进工作面超前水文地质预测预报的基本原理、数据处理及解释方法,介绍了三级对称法超前探测的测点布置的方法,并根据庙庄煤矿运输大巷掘进工作面超
近年来消防部队出现新兵自杀现象,虽然不具有普遍性,但也引起了各级组织的高度重视,如何预防和减少此类事故的发生,确保青年士兵在警营中健康成长和部队的高度稳定,是值得探
日本福岛核事故引起人们对核安全的关注并未随时间推移而淡去,一系列与之相似的围绕环境、公共安全的事件将公众沟通工作推向前台.当前.在核电公众宣传和沟通领域,核电企业间没
《义务教育语文课程标准(2011年版)》指出:"小学拼音要实现学生能准确地拼读和书写声母、韵母和音节,为整个小学阶段语文学习奠定基础。"要让拼音教学收到更好的效果,教师应当根据
卫星运动平台实物仿真试验系统以其良好的可控性、安全性等优点在星载雷达的相关研制中扮演着重要的角色。卫星运动平台的控制软件系统作为该实物仿真试验系统的重要组成部分
摘 要:随着长江三角洲(以下简称“长三角”)区域一体化发展上升为国家战略,长三角城市群正朝着“建设世界级城市群”这一目标稳步迈进。长三角城市群要成为新时代带动全国高质量发展的新动力源,需要贯彻落实党的十九届四中全会精神,积极探索建立城市群协调治理模式,提升城市群协调治理水平。当前长三角城市群在协调治理理念、协调治理动力、协调治理制度、协调治理组织等方面还存在不少问题。长三角城市群需要紧密结合自身协
1 森林资源可持续发展的理论选择近几年来,我国森林资源在面积及蓄积量方面出现了双增长的良好势头,这是有目共睹的。但是,在计划经济向市场经济转轨以及商品经济日益深入发