基于非结构化知识的开放域自动问答关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:flish_mh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统能够帮助人类快速便捷地获取自己所需的信息,在一类友好的人机交互技术,具有广泛的应用前景和巨大的应用价值。自从人工智能技术兴起以来,问答一直是研究的热点话题。近年来,随着深度学习相关技术方法在自然语言处理领域取得非常迅速的发展后,基于非结构化知识的开放域问答系统逐步成为自然语言处理领域的研究热点。人们希望计算机能够像人类一样理解自然语言,并且能够根据人们的提问,自动地从这些非结构化的知识中找出正确的答案。如何让开放域问答系统根据提问在其庞大的非结构化知识中准确检索出相关的片段,并精准定位答案是目前相关研究面临的一个挑战,同时也是亟待解决的重要问题。现有的开放域问答系统,采用检索加阅读的框架,先用传统检索方法检索出问题相关的候选段,再使用机器阅读的方法抽取出候选答案,最后从中选择出最终的预测答案。传统的检索方法利用的是单词符号的统计特征,因此在检索的过程中会引入大量的噪声,这些噪声会对最终答案的生成产生很大的消极影响。而如何根据已有的特征,准确选择出正确的答案也是问答系统面临的一个严峻的挑战。针对现有的开放域问答系统在检索非结构化知识时会产生大量噪声的问题,本文提出了用多层融合文本匹配模型(MFM)来对检索返回的候选段进行筛选。通过在不同的层次上提取并分析语义特征,然后综合起来判断候选段和问题之间的语义相关性,从而实现了对候选段的准确筛选,有效地排除了大量的噪声候选段,极大的缩小了正确答案的范围,提高了开放域问答系统整体的准确率。相比同类型的方法,MFM在对候选段筛选时明显具有更高的准确率。针对难以根据有限的特征从候选答案中准确选择出正确答案的问题,本文提出了一种面向候选答案重排序的多证据语义融合排序方法。通过利用深度学习的方法,训练一个用于给候选段打分的神经网络模型,使其在预测的过程中,不仅能够分析利用自身通过对候选段编码提取到的语义特征,还能加入机器阅读模型对候选段编码的语义特征,从而将两种语义特征综合起来给候选段打分,实现多证据语义融合的排序方法。相比于其他答案重排序的方法,多证据语义融合的方法直接利用了阅读过程中产生的隐藏语义信息,以此作为额外的证据,能够更加准确的选择出正确答案及其对应的候选段。
其他文献
本文选取的研究对象是萨南开发区南Q-南W区块,该区块经过二次加密调整后薄差层和表外层动用程度低的情况,进行剩余油挖潜工作。通过多学科油藏研究后分析可知,该区块由于井距
随着无线便携式设备的大量涌现以及传感技术的发展,体域网逐渐成为人们关注的焦点。可穿戴天线作为可穿戴设备中信息传输的关键器件,在军事、医疗等领域具有广阔的应用前景。
随着软件的迅速发展和广泛应用,并行程序在天气预测、石油勘探等一些重要领域的应用也越来越普遍。目前,OpenMP已经成为使用最广泛的并行编程语言。由于线程间执行顺序的非确
大庆油田经过40多年的水驱开发,已经进入高含水后期的开发阶段,水驱开发已经历了一次、二次加密调整,目前部分区块已进行了三次加密调整。继续水驱挖掘剩余油的难度越来越大,
马克思人民主体观坚持人民是实践的主体、人民是历史的主体、人民是价值的主体的观念,实现好、维护好、发展好人民的根本利益有助于促进人的自由全面发展。社会保险为人民提
无线传感器网络(Wireless Sensor Networks,WSNs)是一种新兴的用于信息收集和处理的分布式网络,在各个领域中得到了越来越广泛的应用。然而,由于结点的资源有限,且自我防御能
固体氧化物燃料电池(SOFCs)是一种有效的能源转换装置,它能够把化学能转换成电能。与其它类型的燃料电池和能量转换装置相比,SOFC有许多令人满意的优点。如它采用固体电解质、
随着多媒体设备的日益普及与广泛应用,彩色图像在不同设备之间的传播与共享将不可避免。为了保证再现图像的质量,大量的色域映射算法应运而生。色域映射是一种将源图像或设备
微电子集成电路的集成度随着微电子技术的飞速发展而持续提高,过渡金属氧化物HfO2和ZrO2因其高介电常数以及与Si晶格优良的匹配性被广泛应用于场效应管栅介质层,取代了传统的
时滞现象在各种实际工程系统中是广泛存在的。因此,在过去的几十年里,时滞系统分析一直是各个领域关注的焦点。时滞系统本质上是一类无穷维系统,该性质给系统分析和设计带来