基于记忆建模的深度学习模型及其在问答系统中的应用

来源 :南宁师范大学 | 被引量 : 0次 | 上传用户:zhouqin1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,越来越多的基于深度学习的问答系统被提出。这些系统能够接受用户以自然语言提出的问题,并能从大量异构数据中查询或者推理得到用户所需答案,但是大部分模型都无法解释其推理能力。受人类记忆方式的启发,近年来研究者提出了许多基于记忆建模的深度学习模型。这些基于记忆建模的深度学习模型具有较强的推理能力,并可以从模型结构上解释其推理能力。本文对现有的记忆网络模型进行了研究,分析其存在的问题和不足,提出了相应的改进方法,并将改进的记忆网络模型应用在问答系统中。本文的研究主要包括以下两个方面:(1)提出了稠密连接记忆神经网络。通过对传统端到端记忆神经网络和关系推理模型进行深入研究。本文认为传统端到端记忆神经网络无法在关系推理任务取得较好效果的原因是其多跳机制造成信息损失,缺少获取关系特征的结构。为此本文提出了稠密连接记忆神经网络,希望在传统端到端记忆神经网络模型的多跳机制中加入稠密连接,门控机制和多层感知机。通过使用稠密连接,可以更全面的考虑已有的事实,结合门控机制过滤信息,并使用多层感知机就可以获取已有事实的关系特征,从而提升了模型的关系特征表示能力,最终提升了模型的关系推理能力。本文在问答数据集上测试了已有的记忆神经网络模型,实验结果表明,稠密连接记忆神经网络有较强的关系推理能力。(2)提出了稠密多头注意力记忆神经网络。为了让模型能完成多个文本推理任务,对工作记忆网络进行了深入的研究。由于推理模块破坏了递进式推理的推理链,工作记忆网络无法很好的解决递进式推理任务。为此本文使用多头注意力机制提升模型的特征表示能力,使用稠密连接和线性变换结构代替工作记忆网络的推理模块。多头注意力机制将词嵌入矩阵的训练与注意力的获取分离,模型可以获取更复杂的注意模式,提升模型同时完成多个文本推理任务的能力。稠密连接能够更好的考虑各层输出的信息,通过不同的输入保留了推理过程的推理序列信息。线性变换则能用最简单的结构去获取关系特征。面对问答数据集上的问题,稠密多头注意力记忆神经网络具有更好的稳定性,更快的收敛速度以及更快的训练速度。本文还将稠密多头注意力记忆神经网络与工作记忆网络在递进式推理的任务上进行了对比,实验结果也表明,稠密多头注意力记忆神经网络模型在递进式推理上更具优势。此外,本文将提出的模型应用到视觉问答,实验结果表明稠密多头注意力网络结合关系推理模块的模型取得了更好的效果。
其他文献
目的对怀菊花的化学成分进行分离和结构鉴定。方法利用Diaion HP-20、Toyopearl HW-40、Sephadex LH-20、硅胶等柱色谱技术以及制备液相手段进行分离纯化,根据化合物的理化性
美国动画电影文化最显著的特征,在于其动画影像中渗透着梦幻般的视觉体验,并以此不断地颠覆着观看者的视觉感官与思维定式。美国动画影片的文化主流形式,从创意至制作的每一
防沙治沙是环境治理的重要方面,直接关系到社会、经济的发展。各地区的自然条件差异很大,所以采取什么样的生物、工程等综合治理措施以适应当地情况成为实际工作中的一个问题
上个世纪40年代,女作家张爱玲、梅娘被文学圈和读书界誉为“南玲北梅”。随着张爱玲在美国孤然谢世,在海内外华人圈再次掀起了新一轮的“张爱玲热”。而当年与她齐名的另一位
改革开放以来,我国教育事业发展取得了巨大成就,同时亦面临诸多困难和挑战,要从落实教育优先发展的战略地位、加大财政对教育的投入、全力促进教育公平、全面推进素质教育、
广西壮族自治区成立60年来,区域经济社会发展取得了辉煌成就:经济发展实现大跨越,由原来的"经济末梢"成长为改革开放的前沿阵地,成为民族自治区跨越式发展的典型;民族团结铸
为了研究铺装层厚度、弹性模量和行车荷载对桥面铺装层受力特性的影响,以实际工程为背景。采用有限元软件ANSYS建立了简支空心板桥的有限元分析模型,通过改变桥面铺装层厚度、
Oxalis Corniculata Linn.(酢酱草科)别名酸米子草,三叶草,爆肚子。特征全草味酸,每叶由三片倒心形小叶组成,花黄色。多年生小草,茎细,趴在地上,节上生根。叶互生,有长柄。
现代学徒制利于企业参与专业人才培养全过程,实现岗位需求与专业设置对接、生产过程与教学过程对接,提高专业人才培养质量。文章从苏宁配送中心物流运作流程现状、物流管理专
内部控制体系是发电企业开展内部控制,强化内部治理的重要手段,然而,从当前发电企业内部控制的现状来看,存在着不少的问题,比较典型的有先天环境欠缺、风险控制不足、控制内