论文部分内容阅读
判断两篇文章之间的关系是一项很重要的自然语言理解任务,在新闻系统和搜索引擎等实际服务中有着广泛的应用。然而,相比在信息检索场景中去匹配两个句子或者匹配一个查询-文档对而言,长文章通常具有丰富的语义信息和复杂的逻辑结构,这也使得长文章之间的匹配成为一个相对独立且很有挑战的任务。本课题希望围绕长文章匹配的难点,设计面向中文长文本匹配任务的算法模型,并提出了基于图分类框架的长文本匹配算法,通过将长文本匹配任务等价的转化为图分类任务,使用图表示学习的范式来求解,从而获得长文本匹配的结果。本论文包括基于图表示学习来实现对长文本对的建模,图节点特征提取,以及图分类等步骤,最后在两个大型公开数据集上进行模型的训练和测试。本文提出的方法,创新点及贡献可以总结为以下几点:(1)基于图分类的长文本匹配算法。该算法将输入的文本对转化为图结构,包括设计节点的选取策略和节点向量化的编码算法,以及完成邻接矩阵的构建和存储;设计基于图卷积神经网络的节点特征抽取算法;针对朴素的图卷积神经网络在聚合邻居信息时无法区分不同邻居信息的重要性程度从而有选择的进行信息聚合,设计基于注意力机制的图神经网络的节点特征抽取算法;设计基于多层感知机的图分类模块对融合了全图信息的特征表示向量进行图分类计算,从而得到长文本匹配的结果,完成长文本匹配任务。(2)基于图池化增强的长文本匹配算法。该算法针对图节点融合过程中如何最大化图的可辨别性,设计了基于自注意力机制的图池化算法和基于图注意力机制的图池化算法来对图节点融合过程进行约束。其中为了进一步建模图节点融合过程中图节点之间的局部特征依赖关系,设计了基于排序的卷积神经网络模块和基于排序的循环神经网络模块。通过图池化算法的引入,有效的提升了图的表示效果,从而获得了更鲁棒且优异的长文本匹配结果。(3)基于底层特征增强的长文本匹配算法。该算法针对如何提升网络模型输入特征的质量,设计了多尺度卷积神经网络模块来获得更丰富且鲁棒的节点语义表示。同时在模型中引入更多的非线性,增强了模型的拟合能力;为了在输入侧显式地建模节点邻居特征与节点的交互,设计了基于邻居采样的节点特征增强算法来对输入特征进行增强,在输入端对节点特征拼接采样的邻居特征来增强节点的表示;为了在输入测直接建模图的全局特征来辅助最后的图分类任务,设计了图全局特征提取模块来有效地提取初始输入图的全局特征。此外,通过本文提出的各模块之间有效地配合得到的中文长文本匹配算法,在两个公开数据集上进行了充分的实验,各项指标均达到了目前最好的结果。最后,我们讨论了未来长文本匹配任务有待研究的角度和方向。