问答系统中基于自注意力机制的答案选择方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:wyywzc21200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是自然语言处理领域的一个重要研究课题,随着人工智能技术的蓬勃发展,问答系统的研究也不断取得突破。作为一种高级形式的信息服务,问答系统与当前广为接受的信息检索系统相比,不仅可以支持自然语言交互,还可以直接返回答案语句,而非相关网页文档。因此,它能更好地理解用户的真实查询意图,在高效满足用户信息需求的同时,为用户提供更加精准的信息服务。答案选择,作为问答系统中的一个关键环节,正受到越来越多研究者的关注。传统答案选择方法主要采用语言学方法,聚焦于开发性能和实用性都有限的语言工具,用以在语法结构上转换问题和答案。近年来,在自然语言处理领域,基于深度学习的各类模型取得了巨大的成功,这些模型同时也被较好地应用在答案选择任务上。然而,在现有的答案选择模型中,传统的神经网络由于其内部运行机制的局限性,无法很好地解决长文本上下文建模时容易出现的长期依赖问题,因此通常很难获取文本全局信息,例如卷积神经网络、递归神经网络等。近来,由Google团队提出的Transformer神经网络仅采用自注意力机制就可以很好地提取文本全局信息。因此,本文提出研究基于自注意力机制的答案选择方法,以解决现有神经网络无法很好解决的长期依赖问题,从而获取问题或答案文本的全局信息。具体来说,本文提出了以下两种基于自注意力机制的答案选择方法:(1)一种基于改进Transformer神经网络的答案选择方法,旨在尽可能对问答句的全局信息和序列特征进行上下文建模。首先采用分层结构部署多头自注意力机制,并在其后连接一个BiLSTM组件构成本方法的特征抽取器。此外,本文还采用了三种池化策略,将输入句子的表示矩阵映射到一个用于问答匹配层的句子向量中,并对应形成了三种基于改进Transformer神经网络的答案选择模型。(2)一种基于长度自适应神经网络的答案选择模型,即QA-LaNN模型。该模型同时采用基于BiLSTM神经网络的特征抽取器和基于Transformer神经网络的特征抽取器来抽取输入句子的全局交互特征,以获得高质量的句子向量表示。特别地,QA-LaNN模型能够根据输入句子的长度自动选择对应的特征抽取器,更有针对性地解决现有方法难以解决的长句子容易面临的长期依赖问题。本文在公开可用的答案选择数据集上,进行了一系列实验来评估提出的模型。实验结果表明,本文提出的基于改进Transformer神经网络的答案选择模型和基于长度自适应神经网络的答案选择模型在标准评价指标上可以超过多个有竞争力的基线模型。同时,研究还发现将基于BiLSTM神经网络的特征抽取器和基于Transformer神经网络的特征抽取器分别应用于短问题和长答案,可以显著提高答案选择的性能。
其他文献
学位
乌克兰独立后,面临着脱离苏联已有国家安全体系、消除现有部门垄断、建立新型国家安全机构的问题,乌克兰安全局(国家安全局)应运而生。乌克兰安全局是维护乌克兰国家安全、具有执法职能的特殊国家机关,隶属于乌克兰总统,受乌克兰最高拉达监督,在维护乌克兰国家主权、领土完整和民主宪政秩序以及其它重大国家利益方面发挥了重大作用。它主要继承于苏联克格勃,拥有庞大的机构、繁多的职能、丰富的手段、强大的权力,在乌克兰欧
本文以文献研究、比较分析为方法,针对冷战后日本对华军事情报工作进行了全面系统的研究。横向上,综合论述日本对华军事情报工作的主要举措;纵向上,梳理总结长期以来日本对华军事情报工作形成的鲜明特点。通过研究发现,冷战后日本在情报政策上不断聚焦中国,持续推动情报机构整合;加强在东海方向对华侦察力量部署;完善武官、谍报等对华人力情报网络;积极在日美对华情报合作框架下拓展新合作伙伴。笔者通过研究认为,日本历来
边缘计算技术的出现,使得服务能够部署在更靠近用户的边缘端,大量数据因此从云端向边缘端分流。这一新型的服务架构,既能够减轻云服务平台与日俱增的负载压力,又可以降低网络传输基础设施的带宽压力。因用户端至边缘端的通信距离短,经过的通信节点设备少,且网络性能相对稳定的特点,边缘计算给依托其运行的应用带来了显著的时延降低效益。边缘计算平台的出现改变了应用运行的基础物理架构,那么应用的研发和部署就必须适应边缘
随着大数据时代的来临与互联网技术的发展革新,信息以电子文本的形式在互联网上流传,其中以非结构化文本信息占据主要地位。当人们真正需要某些信息的时候,如何从海量的非结构化文本信息中提取需要的信息便成为了难题,由此诞生了信息抽取这门技术。本课题来源于国家重大专项,着眼于军事情报机构对文本情报进行快速高效信息抽取的现实需要,拟以人物活动为信息重点,展开面向文本情报的人物活动要素识别与补全技术研究。论文对构
学位
学位
随着军事武器装备和民用磁信息获取的应用需求提升,发展具有高分辨率、高灵敏度、高正交性的三轴磁传感器具有重要意义。TMR三轴集成磁传感器采用了“磁变轨”等技术,在提升分辨力、三轴正交性、线性度等性能指标上具有明显优势。然而,三轴磁传感器的小型化、集成化会产生轴间误差问题(具体来源包括轴间多物理场耦合、敏感体安装偏差以及轴间磁调控参数差异等),会降低磁传感器三分量解算精度。为此,本文开展基于TMR三轴
气敏传感器已广泛应用于空气净化、医疗等诸多领域,然而,气敏材料大多都难以兼顾多种气敏优良性能。如金属氧化物半导体材料,在应用时具有成本低、制造简单、灵敏度高、响应快、使用寿命长等优点,然而也具有工作温度高、选择性及稳定性差等缺点。因此,研究气敏材料性能的改良方法,探索新型的气敏材料十分重要。在本论文中,我们成功制备了无定型二氧化钛(A-TiO2)、钛酸铁及钛酸铜纳米材料,对所制备的纳米材料进行了表
学位