论文部分内容阅读
自然语言理解能力是人类认知的关键能力和获取知识的前提,而让机器学会理解人类语言或文字也是人工智能领域的困难和挑战。机器阅读理解是自然语言处理领域的重要分支,也是问答系统的一个子方向,意义在于使机器理解文本语义并具备推理能力。机器阅读理解的主要流程是输入给定文本和对应的问题,理解上下文语义并推理输出匹配答案。相对于问答系统,不依赖于外部知识库系统,而是从小范围寻找语句之间的联系。传统的自然语言处理技术就是希望机器能够拥有像人一样捕捉到文本中的词义、词性、命名实体的基本能力,并且能对句法进行解析和指代进行消解。这些任务比较简单,不需要复杂的语义理解和推理,通过常用的机器学习或统计学习方法就能做得较好。进一步地,我们希望机器能够理解完整的文章或段落,联系上下文或额外的知识库进行分析和思考,并做出反馈。这要求在更复杂的场景中,抽取更高层次、更细粒度的文本特征。神经机器阅读理解就是当前机器阅读理解发展的一个新阶段,即使用神经网络模型相比传统的基于特征的分类器更适合识别词法匹配和释义。近年来性能较好的端到端深度学习模型成为主流模型,所有参数通过优化得到,不依赖任何下游语言特征,免除了构建大量人工特征的工作,具有一定的抗干扰能力。本文根据主流阅读理解框架设计了一个基于深度学习的机器阅读理解模型,可用于解决“片段抽取”类型阅读理解问题。针对之前主流模型BERT在“嵌入编码”时存在的设计缺陷,提出了邻接分词随机遮掩优化。同时由于中英文语言差异,配合中文分词工具在“嵌入编码”中引入了中文训练样本生成策略优化,提升了模型在中文数据集下的性能表现。另外本文基于片段抽取阅读理解任务的特点,修改了训练损失函数,引入边界辅助目标函数,提升模型在片段抽取任务下的性能。我们在典型中英文片段抽取式数据集上进行了实验,通过对比本文设计的模型与近年来主流模型如BERT、R-NET、BiDAF和Match-LSTM的测试结果,验证了实验设计模型的可行性和优化点的有效性。实验模型在中文百科数据集CMRC 2018测试集上的最好结果达到了70.5(EM)和87.4(F1),而在英文典型片段抽取任务数据集SQuAD 2.0测试集上达到了84.6(EM)和87.1(F1)。另外,本文基于深度学习机器阅读理解模型,对深度学习模型的“黑盒模型”进行了一定的探索,旨在提供模型可解释性。我们通过权重可视化解释模型中涉及的注意力机制的观察模式,指出了模型不同层次中存在的六种较为明显的注意力行为模式。另外,我们统计不同类型问题的准确率从宏观角度总结和分析当前NLP模型所学到的关键抽象理解能力。