面向多篇章长文本的机器阅读理解技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:fishingalone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解具有处理自然语言数据的能力,在智能信息检索、智能客服等多个领域都有重要作用,是实现通用型人工智能的关键技术之一,长期受到学术界和工业界的关注。伴随着深度学习技术的快速发展,机器阅读理解模型在一些单篇章短文本数据集上表现卓越,但这些模型难以应用于多篇章长文本阅读理解问题。现有模型一般将多篇章长文本切分为多个段落,通过集成不同段落的候选答案完成阅读理解,但这些方法存在答案被截断、文本整体信息缺失以及不同段落答案无法对比等问题。本文在预训练模型的基础上,构建了处理多篇章长文本的机器阅读理解模型,主要工作与创新点如下:(1)提出了一种句子级低冗余度文本切分算法,减小答案在文本切分时被截断的风险。首先,该算法以句子为基本单位将输入文本切分为段落;然后以段落为节点,以段落间重叠句子的长度构建有向边权重,将输入文本表示为有向图;最后,该算法采用有向图路径搜索方法求解最低冗余度切分方案。实验结果表明算法有效。(2)设计了一种以段落为单位的递归机制,处理文本整体信息缺失的问题。该机制可以使机器在阅读一个段落时,参考来自其他段落的语义信息,从而实现跨段落信息传递,避免长文本在切分为多个独立段落后整体信息缺失。实验结果显示,该机制可以提升阅读理解的准确度,对比较复杂的问题和文本提升更为明显。(3)设计了一个两步式段落过滤器,用于解决多篇章阅读理解中计算量过大的问题。该过滤器首先使用传统的BM25算法进行粗滤,再使用神经网络进行细滤,只保留对回答问题最重要的几个段落。实验结果显示该过滤器保留少数段落就可以达到较高的正确答案覆盖率,过滤效果良好。(4)针对答案抽取层无法对比来自不同段落候选答案的问题,设计了段落评分层,可以从候选答案所属的段落层面评价候选答案。将该层与答案抽取层结合可以更合理地进行跨段落答案对比。实验结果表明段落评分层可有效提升多篇章机器阅读理解的准确度。本文模型在CMRC数据集、军事机器阅读理解数据集上进行测试。实验结果显示,本文模型与基线模型相比Rouge-L提升了8.4%。最后搭建了原型系统,实现了智能搜索、智能问答等功能。
其他文献
复杂系统云仿真是利用云计算资源共享等优势为复杂系统仿真提供支持的新模式,具有实体规模大,交互复杂,依赖库多样等特点。应用封装可以降低应用部署的复杂度。准确的资源预测可以实现复杂系统云仿真应用最优性能。然而,目前的云环境下主流的封装技术依靠手动编写Dockerfile文件,导致封装效率低下,目前的资源预测技术没有考虑复杂系统仿真应用实体规模,时间同步等特征,难以准确预测应用所需资源,导致资源利用不充
学位
三维超声计算机断层扫描(Three dimensional ultrasonic computed tomography,简称3D USCT)在乳腺癌早期检测筛查及诊断等方面有很好的效果,有助于乳腺癌的及早发现与治疗,提高治愈机率。但在3D USCT系统中,换能器的延迟、位置偏差和温度误差等系统误差会影响到重建图像的质量,其中换能器延迟和位置偏差影响最大,故而需进行换能器的校正。论文基于与浙江衡玖
学位
流数据变化速度快,价值密度稀疏且只能单次访问的特性,导致难以对其价值进行有效评估。采样作为数据价值评估的重要手段,现有在全量流数据上采样会产生过多存储计算资源浪费,访问部分流数据的采样评估方法易丢失蕴含大量离散值的流数据的价值和信息。基于上述问题,如何高效精准的对流数据进行采样使得能够准确的评估其价值成为一个尚待解决的问题。本文针对此问题展开研究,主要贡献如下:首先,针对全量流数据采样产生资源浪费
学位
云计算由于其海量存储和计算而快速发展起来,为个人和组织提供了存储和计算服务。为了保护存储在云中的数据隐私,内容提供商通常会对其数据进行加密。然而云中存在许多数据共享场景,这种存储模式相应的增加了用户之间共享数据的困难。代理重加密是解决数据共享的重要技术手段,让云服务提供商充当代理方来转换密文。但当用户退出时,现有的撤销方案忽视了撤销的用户可能会解密撤销前访问的数据,这会导致内容提供商存储在云服务提
学位
近年来,三维网格模型分割成为计算机图形、图像学的研究热点,越来越多的研究者深入网格分割领域,促使分割技术不断发展,但现有的网格分割方法大多不能完全适用于不同种类的模型,这些三维分割算法或多、或少存在各自的分割缺陷。仅仅利用传统形状直径函数的三维分割算法,存在计算量大、无法较好的适应复杂模型等缺点。为了使三维分割能够较好的适用于不同类别的模型,提高分割速度、增强分割鲁棒性和提高模型分割准确度等,本文
学位
可达性查询是图上的基本操作之一,用于判断图中两结点之间是否存在可达路径。现有的可达性查询算法可分为两类,第一类是直接在原图G上构建索引来回答查询,但其查询性能会受图规模的影响。第二类是首先将原图G进行规约,得到规模较小的规约图Gr,然后在Gr上构建索引来回答查询。现有的图规约算法可以显著减小原图G的规模,但是无法保证规约图上的查询性能。本文针对现有方法存在的问题展开研究,具体研究内容如下。首先,提
学位
随着超级计算机的迅速发展和E级计算时代的到来,计算科学开始发挥越来越重要的作用。计算流体力学(Computational Fluid Dynamics,CFD)作为计算科学的一个重要分支,如今在航空航天航海等领域的应用也愈加广泛,其中包括国产大客机研制、载人航天与深空探测等国家重大工程。基于CFD开展相关设计与研发工作,首先需要对计算域进行空间离散,即网格划分。相比于结构网格和笛卡尔网格,非结构网
学位
知识图谱是一种典型的多关系结构,由许多实体和关系组成。现有的知识图谱大多都非常稀疏,还不够完整。因此知识图谱补全任务应运而生,旨在通过原有知识图谱中的事实对那些可能存在的隐藏关系进行预测。常见的知识图谱补全方法,采用嵌入表示学习的模型借助三元组中实体、关系嵌入表示向量的近距离假设对隐藏关系进行预测。这类方法针对封闭世界知识图谱补全能发挥出较好的效用,但是针对开放世界知识图谱中的新实体类型与相关关系
学位
无差拍预测电流控制(dead-beat predictive current control, DPCC)因其响应迅速而在电机控制领域具有较大应用潜力,然而受参数敏感影响,该方法鲁棒性不高。为此,文中提出一种结合参数自适应的永磁同步电机(permanent magnet synchronous machine, PMSM)电流无差拍控制方法,以解决无差拍控制在参数失调下的鲁棒性问题。首先,介绍无差
期刊
随着互联网医疗事业的发展,医疗的智能化、信息化成为发展趋势。电子病历存储了丰富的患者诊疗数据,是实现智能化、数字化医疗信息建设的重要基础。但是,大部分电子病历都以自然语言方式录入的医疗文本格式进行保存。想要从这些非结构化、冗余且复杂度极高的医疗文本数据中直接获取高价值的内容是非常困难的,同时也不能直接使用人工智能算法对这些医疗文本进行深一步的挖掘与分析。因此,电子病历的结构化问题成为人工智能时代研
学位