开放域问答系统的关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:scxs866
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放域问答系统即机器根据开放域的知识库,自动为我们解答问题的系统。具体地,系统首先根据问题在开放域的海量文档中检索出最有可能包含答案的文本段落,进而从段落中抽取出答案。开放域问答系统有着极其广泛的应用场景,这些应用已经渗透进大众生活的方方面面,比如智能语音机器人、智能搜索引擎。由于其巨大的商业价值,开放域问答领域不断吸引着应用程序开发者以及相关领域研究者。本文的主要工作从对开放域问答系统的三个关键技术研究展开,分别为检索系统、机器阅读理解系统、答案验证系统。第一部分提出了一种基于稠密语义向量表示的信息检索模型。为了结合BM25算法对词结构匹配的优势和本文提出的DSVRM模型对语义匹配的优势,我们提出了两种结合策略。第一种是简单的对BM25算法和DSVRM的相似度得分进行线性加权,第二种是基于多路召回和段落重排序的方法。实验结果表明,基于多路召回和段落重排序的方法得到的实验结果要略好于前者。最终模型在NQ,TriviaQA,WQ,SQuAD这四个数据集上取得的最好的top-20检索准确率分别为80.2%,80.6%,75.4%,73.9%。第二部分提出了两种机器阅读理解模型,第一种基于双向LSTM模型,引入字符级别词向量、语言学特征来丰富词向量信息,并且使用双向注意力机制。在SQuAD数据上取得了 EM为80.1,F1为84.6。第二种基于预训练语言模型,得到了更好的效果,其中EM为84.1,F1为90.9。值得注意的是,基于双向LSTM的模型虽然在效果上略差于基于预训练模型的机器阅读理解模型,但是前者使用的参数量远小于后者。此外,论文还提出了一种多段落阅读模型,读取多个段落,从而给出答案。弥补了因为检索模型top-1准确率不足而导致的开放域问答系统整体性能下降的缺陷。第三部分提出了一种答案验证模型,用于验证机器阅读理解模型给出的答案的准确性,当段落不包含答案时,拒绝回答。本文提出的结合预验证和后验证的答案验证方法,将模型在SQuAD 2.0数据集上的EM和F1分别提高到了 88.1和90.1。最后,论文总结了目前的开放域问答系统存在的问题,并提出将来可以继续进行研究的方向。
其他文献
燃烧室的壁面温度是燃烧过程中的重要热力参数,对壁面与火焰结构及温度的关系进行实验研究对燃烧室的设计有重要意义。磷光热成像测温技术是一项近年来快速发展的光学测量技术,借助磷光材料和激光器等设备,可以实现温度的非接触测量。辐射层析成像是一种先进的火焰燃烧诊断技术,可以实现火焰三维结构的重建。本文的研究目的便是借助这两项技术,探究壁面与火焰温度之间的关系。在壁面温度测量方面,本文介绍了磷光测温技术的原理
学位
斜盘式轴向柱塞泵是液压系统重要的动力元件,广泛应用于工程机械和航空航天等领域中,同时,柱塞泵也是液压系统最主要的噪声源,随着液压系统向高速、高压和高功重比方向发展,柱塞泵的振动噪声问题日益突出,甚至影响液压系统的整体性能。柱塞泵壳体的动态特分析以及结构优化设计对柱塞泵整体减振降噪和性能提升具有一定的工程意义。本文主要内容包括:(1)针对“转子-斜盘-壳体”载荷传递路径,建立了全运动周期“柱塞-滑靴
学位
目前,安全芯片作为支付终端的核心部件,主要还以国外进口安全芯片为主。随着国家对信息安全方面越来越重视,采用自主知识产权的安全芯片作为支付终端的主控芯片具有重要的现实意义。国务院下发通知要求建立以国产密码为主的金融信息安全保障体系,实现金融信息核心安全产品与系统的自主可控。因此,采用国密算法的支付终端的安全设计中符合国家的长远规划。本文设计的支付终端采用了具有自主知识产权的安全芯片和国密算法,主要开
学位
幼儿是因果问题的多产者。他们向教师提出“为什么”(why)和“怎么会”(how),教师做出某种回应是幼儿园常见的教与学现象。教师会如何回应幼儿?是什么信念指导着他们做出这种回应而不是另一种回应?基于马丁·布伯的对话哲学视角,对我国194名幼儿园教师调查发现:(1)教师回应幼儿因果问题的常见方式是解释性回应、探究性回应、提问式回应、查阅性回应。(2)教学信念潜在剖面分析识别出主导者、追随者、复调者三
学位
贫困是世界各国共同面临的重大课题,也是横亘在经济发展道路上的巨大障碍。中国在2020年消除了绝对贫困,贫困人口全部脱贫,为人类减贫事业提供了宝贵经验。“国之称富者,在乎丰民”,2022年“中央一号文件”提出要防止发生规模性返贫,进入后脱贫时代,我们应当把目光转向如何解决相对贫困。同时学术界关于“贫困女性化”的研究愈发受到关注,多数学者认为女性被剥夺程度更深,范围更广,更容易陷入多维贫困的境地,这为
学位
GH3625是一种镍铬基固溶强化变形高温合金,GH3625合金从低温到980℃都具有高强度、高韧性、出色的可加工性和可焊接性、优良的抗疲劳性能以及出色的耐腐蚀能力,被广泛应用在航空航天、石油化工、舰船、核电等领域。喷丸强化工艺通过弹丸高速撞击材料表面形成残余压应力并改善微观组织结构,可以提高材料疲劳和力学性能。本文通过对GH3625试块进行喷丸强化处理研究喷丸层残余应力分布及微观组织结构变化,同时
学位
遥感图像尺寸大、目标多、场景复杂,如何从大场景遥感图像中快速准确地检测出感兴趣目标仍面临较大的技术挑战,目标显著性区域的快速提取是解决上述难题的有效途径之一。人眼视觉关注显著性区域的提取一直是计算机视觉领域的研究热点,经过几十年的发展,主要分为自底向上和自顶向下两类方法。前者是在不理解图像内容的情况下,从视觉刺激本身推断出人的注视区域;后者直接由对象级任务驱动,需要对场景的上下文有清晰的理解。本文
学位
农民收入持续增长对稳定农业基本盘、保证粮食供给充足、提升国家安全系数均具有重要意义。近年来,在我国农业经济高速增长的背后,农民收入增长动力不足、城乡居民收入绝对差逐步拉大等问题也逐渐显现,昭示着我国农村居民收入亟待发掘新的上行动力。现有研究表明,农业农村信息化的不断推进,一定程度上改变了我国农民的生产生活方式,也为农民增收带来了新的可能。而农业农村信息化基础设施作为农业农村信息化建设的基础性工程,
学位
近年来,手机等消费类电子产品迅猛发展,对集成电路产业的发展也提出了新的更高的要求。开关电源作为电子产品的重要组成部分,需求日益增大,尤其是在AMOLED显示应用方向。升降压(Buck-Boost)转换器作为一种能够产生输入输出极性相反的DC-DC开关电源,目前已成为OLED显示的常用驱动电源,所以本文设计了一款用于AMOLED显示的Buck-Boost转换器。本文设计的Buck-Boost转换器采
学位
受城乡二元经济结构和城市偏向政策的长期影响,我国在实现经济发展的同时也衍生出了城乡收入差距过大的问题,不仅不利于经济持续健康发展,也容易滋生出许多社会问题。随着信息要素在社会生产中的作用日益突出,数字经济在国民经济中的地位也愈来愈重要,发展数字经济成为大势所趋。2021年我国数字经济规模达到39.2万亿元,且在增速上高于同期GDP数倍,数字经济发展前景十分可期。但在数字经济迅猛发展的今天,我们的关
学位