论文部分内容阅读
随着计算机的广泛应用和互联网技术的快速发展,当今社会正以飞快的速度向大数据时代前进,以电子文档形式存在的文本数据也与日俱增。仅仅让计算机处理文本数据的表面信息已经远远不能满足现代人们的需求,如何让计算机深入地理解自然语言文本,并且准确、高效地从中获取有价值的信息变得越来越重要。文本蕴含识别是一项判断文本之间定向语义关系的任务,要求对于给定的两段文本,文本T(Text)和假设H(Hypothesis),判断假设H的语义是否可以由文本T推断出来。文本蕴含识别旨在促进文本的语义研究,提高计算机对自然语言文本的理解能力,具有非常重要的研究价值和应用价值。本文主要研究面向英文的文本蕴含识别方法,通过对该任务在语义表示和蕴含方法方面存在的问题进行深入地研究,提出了基于胶囊的英文文本蕴含识别方法和融合胶囊与BERT的英文文本蕴含识别方法。其中基于胶囊的英文文本蕴含识别方法在SNLI、MultiNLI-matched、MultiNLI-mismatched和SciTail数据集上的准确率分别为89.2%、77.4%、76.4%和78.4%;融合胶囊与BERT的英文文本蕴含识别方法在SNLI和SciTail数据集上的准确率分别为89.4%和86.3%。本文的具体贡献可以归纳为以下几点:1.提出基于胶囊的英文文本蕴含识别方法。该方法在单词的语义表示方面,使用卷积神经网络从字符层面提取单词的局部特征信息,一定程度上缓解了随机初始化未登录词所带来的语义特征不明显问题;其次在蕴含识别过程中,通过结合交互注意力机制分别为每一种蕴含关系构建一个胶囊,以分类别学习的方式完成最终蕴含关系的识别。2.提出融合胶囊与BERT的英文文本蕴含识别方法。该方法在基于胶囊的英文文本蕴含识别方法的基础上,进一步结合了预训练BERT模型对文本T和假设H编码所得到的聚合特征来判断两者之间的蕴含关系。3.在三个标准数据集上进行了验证实验,实验结果表明所提方法在该领域与其他先进的英文文本蕴含识别方法具有可比性。对注意力关系矩阵的可视化分析也验证了胶囊在英文文本蕴含识别任务中的有效性。4.根据融合胶囊与BERT的英文文本蕴含识别方法设计并实现了相应的英文文本蕴含识别系统。该系统包括数据预处理模块、神经网络模块、集成学习模块,能够实现对给定的文本对进行蕴含关系识别。