面向查询理解的扩展词排序模型研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wang1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网数据规模的持续增长,信息检索技术得到广泛关注,并被应用于多种垂直领域检索场景。信息检索旨在根据用户查询,在大规模数据中查找与查询相关的文档或网页,并根据其相关程度给出相应的排序列表。而用户提交给搜索引擎的查询往往仅包含少量关键词,很难全面描述用户的信息需求,进而对查询意图的理解带来模糊性和不确定性,因此,如何准确有效地理解用户查询对于检索性能的提升至关重要,也是信息检索性能优化的核心方向之一。为精确地理解用户查询,提升检索性能,本文从如下三个方面展开研究,具体内容包括:1、针对伪相关反馈中的扩展词选择问题,提出一种基于伪相关反馈的扩展词排序模型。该模型以伪相关反馈方法为基础,将排序学习作为核心技术,通过监督学习构建候选扩展词排序模型,用以选择最符合用户信息需求的扩展词,补充和完善原始查询,提高扩展查询的质量。在模型构建中,分别对候选扩展词选择、扩展词相关性标注、扩展词特征抽取和排序模型构建等方面给出具体优化策略,并基于三个标准TREC检索数据集展开实验,实验结果表明本文方法能够有效提升通用领域信息检索的性能。2、针对生物医学文献检索中的查询理解问题,提出一种面向生物医学文献检索的扩展词排序模型。该模型以现有基于伪相关反馈的扩展词排序模型为基础,融合生物医学领域知识,优化候选扩展词选择和特征抽取,并基于查询主题信息标注候选扩展词相关性。在模型构建中,提出一种基于词项分组的候选扩展词排序方法,该方法以组排序学习为基础,优化生物医学扩展词排序的样本空间。在两个标准TREC生物医学文献检索数据集上的实验结果表明该方法能够有效提升生物医学文献检索的性能。3、针对代码信息检索中的查询理解问题,提出一种面向代码信息检索的扩展词排序模型。该模型以基于伪相关反馈的扩展词排序模型为基础,融合代码片段和代码文件相关信息,优化候选扩展词选择、候选扩展词特征抽取以及候选扩展词相关性标注策略。在模型构建中,提出一种基于查询级排序自编码算法的扩展词排序模型,该模型采用查询级自编码算法优化排序学习特征空间,以提高扩展词排序的准确率。在现有代码片段检索数据集上的实验结果表明该方法能够有效改善代码信息检索的性能。本论文研究工作面向信息检索中的查询理解问题,构建扩展词排序模型,并将其应用于两类垂直检索任务,改进了查询扩展中扩展词选择效果,有助于更加准确地理解用户检索意图,同时,该研究也可以推广并应用于其他相关检索任务。
其他文献
目前,我国商业银行服务渠道种类与发达国家已基本相同,但各种服务渠道之间缺乏互联互通和相互支持,使得多渠道发展反而成为业务发展和创新的障碍,据此,作者提出解决这一问题
通过对部分框支剪力墙结构进行计算分析,总结了转换构件上一层剪力墙超筋的现象,并分析了发生此现象的原因。该文研究归纳了结构计算时避免转换构件上一层剪力墙超筋的方法,
本文研究的主要对象为山西地区宋金窑址采集瓷片,合计10个窑的瓷片共371片。首先通过文献调研对窑址的位置、历史沿革、考古情况、研究现状和采集标本进行简要介绍。然后根据
现代化进程是将人从“神”的统治下解放出来,以及人的主体性、社会合理化得以确立的过程。然而,随着社会合理化的推进,理性以“同一性”的强权力量剥夺了一切属于非理性领域
刺激输入是情绪产生的先决条件。相应的,情绪调节的过程模型指出刺激情境的选择也是情绪调节的第一步。尽管大量研究探讨了在情绪加工过程中,如何通过对情绪注意,认知与行为
根据铁道部有关单位调查统计参数,本文按分位值法对既有铁路混凝土桥梁标准设计进行可靠指标的检算,普通钢筋混凝土梁β=5.47~6.10,预应力混凝土梁β=8.10~9.41。并根据试算法
同城化是我国城市发展进程中的新概念,是深化城市发展的城市相互作用模式。文章选取厦门、漳州两市2003及2009年的3次产业产值为基本数据,采用改进潜能模型从3次产业场强占比
文化创意产业作为文化产业的重要组成部分,已经成为世界经济的新增长点,日益受到广泛关注。本文通过产业经济学的理论分析,阐释和验证了文化创意产业的集聚效应,并对文化创意
结合乌江银盘水电站工程GPS控制网的布设,商用软件中PowerAdj应用,介绍了采用GPS布设高精度工程平面控制网受网形、观测值、解算软件的影响实施不同方案.分析了GPS基线粗差,
胸腰椎爆裂型骨折常常合并脊髓、圆椎及马尾损伤,如不及时诊断和妥善处理,可能导致严重后果。我们对35例外伤性胸腰椎爆裂型骨折患者采用短节段固定联合骨水泥强化伤椎进行治