论文部分内容阅读
机器阅读理解(Machine Reading Comprehension,MRC)是让机器学会阅读理解,阅读文本并理解文本的主旨内容,然后回答文本提出的问题。MRC是衡量自然语言处理(Natural Language Processing,NLP)发展水平的重要标志,且其拥有广阔的应用场景,包括搜索引擎、机器阅卷、问答系统、信息检索等等,它能够让计算机帮助人类在海量的文本数据中找到想要的答案,从而减轻人们获取信息的成本。近年来,让机器学会阅读理解是当前人工智能领域非常火热的主题,特别是基于深度学习的MRC研究近来受到了国内外研究者的广泛关注。与传统方法相比,采用深度学习方法的MRC已经取得了显著的研究进展。因此本文采用深度学习方法,结合MRC任务的特点,研究融合多重语义对齐表示的MRC的系统实现与改进。具体地,本文的工作主要包括以下三个方面:(1)详细阐述了 MRC数据集的发展、常用的评价指标以及各种MRC模型。通过深入比较分析各种MRC模型,将现有的MRC研究方法概括为两种不同的类型:传统方法、深度学习方法。(2)设计实现了一个基于神经注意力的MRC基线系统,该系统采用深度学习方法结合注意力机制实现了一个端到端的神经网络模型。基线系统首先分别采用卷积神经网络和预训练方式获取char-level embedding和word embedding,然后使用双向长短期记忆模型对文章和问题的上下文进行编码,接着采用注意力机制得到问题到文章的语义对齐表示,最后在模型的输出层使用softmax分类器计算答案的概率分布。(3)提出了一个融合多重语义对齐表示的MRC模型。该模型要是对基线模型进行了改进,通过融合多重语义对齐表示来增强语义表达,得到文章和问题更好的交互表示。该系统对基线模型进行了 3点改进:1)引入强化因子对文章的语义进行增强得到文章到问题方向上的语义对齐表示;2)增加文章到文章方向上的语义自对齐表示;3)输出层重新引入问题信息,将答案开始和结束位置采用注意力进行相互联系。实验结果表明,该改进模型的性能优于基线模型。