论文部分内容阅读
随着互联网以及计算技术、存储技术的发展,数据呈现爆发式的增长,人类开始进入大数据时代。如何从海量的数据中快速并准确的找到人们真正感兴趣的信息已经成为影响人类工作生活的重要问题,这也是诸如搜索引擎、问答系统等应用的核心任务。这些应用的一个基础问题就是给定一段文本如何从海量的数据中找到与其相匹配的另一段文本,也就是文本语义匹配。 文本语义匹配的关键在于如何表达文本语义以及如何基于语义进行匹配两个方面。近年来,由于深度学习具有的能够从大规模数据中自动学习文本表达以及表达之间匹配关系的优点,深度学习被成功的应用于文本语义匹配。循环神经网络是一类专门处理序列化数据的深度模型,因此更适合于文本语义匹配等文本相关任务。本文研究基于循环神经网络的文本语义匹配,并解决目前面临的几点挑战。 首先,我们研究如何基于循环神经网络学习到更好的文本表达。传统的循环神经网络在学习语义表达时面临无法高效捕获长距离依赖的问题。为了解决这个问题,本文提出了CBiLSTM模型,该模型融合了长短时记忆和卷积神经网络二者的优点。一方面,CBiLSTM基于长短时记忆减轻了传统循环神经网络面临的优化问题,另一方面,CBiLSTM通过卷积神经网络常用的卷积和池化操作构建了一条通道,让文本的局部信息能够直接进入该文本的最终表达。我们基于文本分类和文本语义匹配的一系列实验验证了CBiLSTM能学习到更好的文本表达。 然后,我们研究如何基于循环神经网络对两段文本进行更充分的匹配。现有的基于循环神经网络的文本匹配先将整段文本压缩到一个低维向量中。这种压缩方式得到的表达容易丢失细粒度的信息,从而导致匹配不够充分。为了解决这个问题,我们提出了位置文本表达的概念和MV-LSTM模型。位置文本表达是一种关注于某一个具体位置上的整段文本的表达,一段文本在其每个单词位置上都有一个位置文本表达。最终匹配发生在两段文本的所有位置文本表达之间,因此MV-LSTM能够进行更加充分的匹配。实验发现,MV-LSTM能够找到两段文本之间的最优匹配位置并在该位置完成匹配,此外,通过融合多个位置文本表达之间的匹配信息能够进一步提升匹配效果。 最后,我们研究如何基于循环神经网络建模文本之间的匹配模式信息。文本语义匹配中的很多匹配模式对决定匹配度是很关键的,比如两个相同的N-Gram之间的匹配模式是由连续的N个单词之间的匹配组成的。现有的基于循环神经网络的方法是先构建语义表达再计算语义表达之间的匹配,并没有直接建模匹配模式。本文中我们采用了一种直接建模匹配模式的思想并提出了一种递归的解决文本语义匹配问题的思路。这种递归的思路是把一个复杂的序列匹配问题逐步分解为其内部的子序列之间的匹配并最终分解为单词之间的匹配。我们基于这样的思想提出了Match-SRNN模型。这种模型可以像类似求解最长公共子序列的动态规划算法那样去构建两个句子之间的最优匹配模式,因而具有较好的有效性和可解释性。我们在模拟数据和真实数据上的一系列实验展示了Match-SRNN的效果和作用机制。 总的来说,针对文本语义匹配问题,本文既研究了如何更好的学习文本语义表达也研究了如何更好的建模文本之间的匹配模式,并相应的提出了三个新的深度文本语义匹配模型:CBiLSTM、MV-LSTM以及Match-SRNN。这些模型在多个文本语义匹配任务上都优于相应的现有模型。