论文部分内容阅读
随着深度学习的发展,越来越多的基于深度学习的问答系统被提出。这些系统能够接受用户以自然语言提出的问题,并能从大量异构数据中查询或者推理得到用户所需答案,但是大部分模型都无法解释其推理能力。受人类记忆方式的启发,近年来研究者提出了许多基于记忆建模的深度学习模型。这些基于记忆建模的深度学习模型具有较强的推理能力,并可以从模型结构上解释其推理能力。本文对现有的记忆网络模型进行了研究,分析其存在的问题和不足,提出了相应的改进方法,并将改进的记忆网络模型应用在问答系统中。本文的研究主要包括以下两个方面:(1)提出了稠密连接记忆神经网络。通过对传统端到端记忆神经网络和关系推理模型进行深入研究。本文认为传统端到端记忆神经网络无法在关系推理任务取得较好效果的原因是其多跳机制造成信息损失,缺少获取关系特征的结构。为此本文提出了稠密连接记忆神经网络,希望在传统端到端记忆神经网络模型的多跳机制中加入稠密连接,门控机制和多层感知机。通过使用稠密连接,可以更全面的考虑已有的事实,结合门控机制过滤信息,并使用多层感知机就可以获取已有事实的关系特征,从而提升了模型的关系特征表示能力,最终提升了模型的关系推理能力。本文在问答数据集上测试了已有的记忆神经网络模型,实验结果表明,稠密连接记忆神经网络有较强的关系推理能力。(2)提出了稠密多头注意力记忆神经网络。为了让模型能完成多个文本推理任务,对工作记忆网络进行了深入的研究。由于推理模块破坏了递进式推理的推理链,工作记忆网络无法很好的解决递进式推理任务。为此本文使用多头注意力机制提升模型的特征表示能力,使用稠密连接和线性变换结构代替工作记忆网络的推理模块。多头注意力机制将词嵌入矩阵的训练与注意力的获取分离,模型可以获取更复杂的注意模式,提升模型同时完成多个文本推理任务的能力。稠密连接能够更好的考虑各层输出的信息,通过不同的输入保留了推理过程的推理序列信息。线性变换则能用最简单的结构去获取关系特征。面对问答数据集上的问题,稠密多头注意力记忆神经网络具有更好的稳定性,更快的收敛速度以及更快的训练速度。本文还将稠密多头注意力记忆神经网络与工作记忆网络在递进式推理的任务上进行了对比,实验结果也表明,稠密多头注意力记忆神经网络模型在递进式推理上更具优势。此外,本文将提出的模型应用到视觉问答,实验结果表明稠密多头注意力网络结合关系推理模块的模型取得了更好的效果。