问题生成与答案抽取关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:wio120we
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器问答是自然语言处理领域当中一个前沿的研究方向,它的任务是要让计算机通过学习人类的自然语言(以文本为载体),学会提出问题并回答问题。由于机器问答能够直接反映计算机理解自然语言的能力水平,所以近年来受到来自产业届和学术届的广泛关注。当前,基于人工智能的机器问答技术的发展推动着自然语言理解领域的研究进入了一个新的高度,成为最具有发展前景的研究方向之一。随着大数据时代的到来,信息的数量呈现出了爆炸式增长的趋势,伴随着人工智能和机器学习的浪潮,深度学习、强化学习等人工智能技术与自然语言处理领域开始深度融合,使得机器问答技术得到了快速的发展。虽然一些研究领域取得了令人瞩目的进展,但仍然存在很多挑战:1)当前基于序列到序列的问题生成模型存在误差累积的问题,导致模型性能下降;2)当前抽取式问答模型存在预测边界不准确的问题等情况。因此,为了应对上述挑战,本文聚焦问答技术的中的“怎么问”和“怎么答”两个方面对应的问题生成和答案抽取两个任务开展若干关键技术的研究与实证分析。本文的主要贡献总结如下:第一,针对序列到序列的问题生成模型误差累积的问题,提出一个基于强化学习的生成顺序重排序方法,提升了问题生成的语义准确度。该方法通过一个策略网络实现生成顺序的采样,利用策略梯度下降算法,将问题的准确度和定义的语义槽准确度作为回报值来更新网络,来学习较优的生成顺序来缓解文本生成过程中位置靠后的文本生成效果差的问题。同时针对强化学习的采样过程导致网络收敛抖动的问题,提出重生网络,通过向老师网络学习知识来指导学生网络的重训练,以达到更好的生成效果。此外,我们在提取被提问对象时,提出一个基于预训练模型进行微调的跨度实体抽取模型以提升其性能。该方法在预测跨度实体时利用对“难预测的”实体加权来缓解输出的正负样例不平衡的问题。在基准数据集上的实验显示,在被提问内容提取任务中,我们的模型对实体密度较大的数据集有明显的性能提升;在问题生成任务中,提出的重排序策略的应用对生成模型性能有很大提升,另外融合重生网络后,模型性能也有提升。第二,针对抽取式问答模型中答案预测不准的问题,提出了一种基于多任务学习的答案抽取模型,提高了答案预测的准确度。该方法将抽取式问答任务看成命名实体识别任务,其中问题为实体标签,输入的段落中的答案跨度为实体,将抽取式问答任务和命名实体识别任务同时训练,来加强对答案文本跨度的边界的监督。在基于多段落的抽取式科技文献问答数据集上的实验表明,该方法对答案抽取准确度的提升有效。
其他文献
遥感图像飞行器检测系统在军事拦截防护、机场管理等领域具有举足轻重的作用,系统的前向处理过程可以分为前处理、特征提取、后处理三个阶段。遥感图像飞行器检测系统的特征提取阶段对实现平台的计算、存储资源提出较高的要求,后处理阶段迭代计算候选框重叠率产生巨大延时,都阻碍了飞行器检测系统在实时应用领域的广泛应用。为了克服这些困难,本文给出基于FPGA平台的遥感图像飞行器检测系统特征提取和后处理阶段的加速器设计
学位
光催化技术是解决能源短缺和环境污染问题的最有效解决途径之一,设计和制备高效光催化材料具有重要意义。异质结构可以有效地提高半导体材料的光响应范围,促进光生载流子的有效分离,从而提高量子效率和光催化活性。本文以TiO2基光催化剂降解污染物为研究对象,通过水热法结合非金属B元素掺杂,水热原位氧化法以及溶液还原法等手段,成功制备了空心球状的R-TiO2/A-TiO2 Z型异质结构,等离子效应增强的(A,R
学位
借助先进的传感、通信和计算机技术,对运动中的通信辐射源的相关研究能为安防、旅游和军事等领域提供高效的服务,具有重要的理论意义及实用价值。通信辐射源在运动中通常产生多维连续的序列型数据,运动和通信行为同时发生,与环境交互频繁。由于噪声等因素的影响,认知效率低,因此,本文利用强化学习等智能技术展开如下研究:(1)为准确比较辐射源轨迹相似性,定义了辐射源语义信息,基于改进的马氏距离和高效K近邻相似搜索,
学位
学位
作为一种新的材料,高熵合金具有优于其他传统合金的显著优势,高熵合金的多主元效应使得其在强度、硬度、延展性、耐磨性、抗腐蚀性、疲劳、断裂韧性等方面均表现出了较为广阔的应用前景;高熵合金灵活的组分设计,大大扩充了材料的组成体系,基于过渡元素的高强度,高含能元的难熔高熵合金有望成为新的结构释能元件,替代现有惰性战斗部壳体,增强战斗部的毁伤能力。本文选取理论燃烧热值高,混合密度较低的TiZrNbV为研究对
学位
稀土钙钛矿氧氮化物在新型多功能材料领域有广泛的应用前景。本文针对新型稀土钙钛矿型功能材料和在军用高性能电子元器件上的应用潜力为背景,开展了钽基稀土钙钛矿氧氮化物陶瓷的设计、制备及性能研究。通过结构模型和密度泛函理论(Density functional theory,DFT)研究了钽基稀土钙钛矿氧氮化物的结构稳定性和铕钽钙钛矿氧氮化物的晶体结构和电子结构,采用尿素法结合无压放电等离子煅烧工艺快速制
学位
本文针对长杆弹高速斜侵彻靶板仿真问题,对侵彻模型进行了总结梳理,开展了理论和数值模拟研究,重点对长杆弹斜侵彻的初始阶段进行了探讨,建立了斜侵彻初始开坑模型和跳飞修正模型,并编写了适用于复杂几何形状目标的长杆侵彻三维可视化仿真程序。研究了现有初始开坑阶段的模型,整理了目前普遍使用的六个经典长杆侵彻模型,分析各模型的差异和适用条件以及存在的不足,通过编程计算,分析了现在常用的六个侵彻模型与实验结果的匹
学位
随着人类社会对清洁电力需求的持续增长,核能发电在世界范围内得到广泛关注。福岛核事故后,耐事故燃料包壳锆(Zr)合金材料的概念被提出。由于无须改变现有反应堆和核燃料组件的相关设计,且能直接改善事故工况下的容错能力,在Zr合金表面包覆铬(Cr)涂层被认为是短期内最有可能投入使用的一项技术。熔盐电沉积技术可以在复杂形状的基体表面制备高质量Cr涂层,有望解决包壳Zr合金表面高质量Cr涂层的高效低成本制备难
学位
学位
学位