基于循环神经网络的文本语义匹配研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhelehang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网以及计算技术、存储技术的发展,数据呈现爆发式的增长,人类开始进入大数据时代。如何从海量的数据中快速并准确的找到人们真正感兴趣的信息已经成为影响人类工作生活的重要问题,这也是诸如搜索引擎、问答系统等应用的核心任务。这些应用的一个基础问题就是给定一段文本如何从海量的数据中找到与其相匹配的另一段文本,也就是文本语义匹配。  文本语义匹配的关键在于如何表达文本语义以及如何基于语义进行匹配两个方面。近年来,由于深度学习具有的能够从大规模数据中自动学习文本表达以及表达之间匹配关系的优点,深度学习被成功的应用于文本语义匹配。循环神经网络是一类专门处理序列化数据的深度模型,因此更适合于文本语义匹配等文本相关任务。本文研究基于循环神经网络的文本语义匹配,并解决目前面临的几点挑战。  首先,我们研究如何基于循环神经网络学习到更好的文本表达。传统的循环神经网络在学习语义表达时面临无法高效捕获长距离依赖的问题。为了解决这个问题,本文提出了CBiLSTM模型,该模型融合了长短时记忆和卷积神经网络二者的优点。一方面,CBiLSTM基于长短时记忆减轻了传统循环神经网络面临的优化问题,另一方面,CBiLSTM通过卷积神经网络常用的卷积和池化操作构建了一条通道,让文本的局部信息能够直接进入该文本的最终表达。我们基于文本分类和文本语义匹配的一系列实验验证了CBiLSTM能学习到更好的文本表达。  然后,我们研究如何基于循环神经网络对两段文本进行更充分的匹配。现有的基于循环神经网络的文本匹配先将整段文本压缩到一个低维向量中。这种压缩方式得到的表达容易丢失细粒度的信息,从而导致匹配不够充分。为了解决这个问题,我们提出了位置文本表达的概念和MV-LSTM模型。位置文本表达是一种关注于某一个具体位置上的整段文本的表达,一段文本在其每个单词位置上都有一个位置文本表达。最终匹配发生在两段文本的所有位置文本表达之间,因此MV-LSTM能够进行更加充分的匹配。实验发现,MV-LSTM能够找到两段文本之间的最优匹配位置并在该位置完成匹配,此外,通过融合多个位置文本表达之间的匹配信息能够进一步提升匹配效果。  最后,我们研究如何基于循环神经网络建模文本之间的匹配模式信息。文本语义匹配中的很多匹配模式对决定匹配度是很关键的,比如两个相同的N-Gram之间的匹配模式是由连续的N个单词之间的匹配组成的。现有的基于循环神经网络的方法是先构建语义表达再计算语义表达之间的匹配,并没有直接建模匹配模式。本文中我们采用了一种直接建模匹配模式的思想并提出了一种递归的解决文本语义匹配问题的思路。这种递归的思路是把一个复杂的序列匹配问题逐步分解为其内部的子序列之间的匹配并最终分解为单词之间的匹配。我们基于这样的思想提出了Match-SRNN模型。这种模型可以像类似求解最长公共子序列的动态规划算法那样去构建两个句子之间的最优匹配模式,因而具有较好的有效性和可解释性。我们在模拟数据和真实数据上的一系列实验展示了Match-SRNN的效果和作用机制。  总的来说,针对文本语义匹配问题,本文既研究了如何更好的学习文本语义表达也研究了如何更好的建模文本之间的匹配模式,并相应的提出了三个新的深度文本语义匹配模型:CBiLSTM、MV-LSTM以及Match-SRNN。这些模型在多个文本语义匹配任务上都优于相应的现有模型。
其他文献
近年来,VoIP应用得到了越来越广泛的应用,越来越多的企业和个人选择网络电话来进行实时通信。随着互联网中联网主机的数目日渐增加,很多主机都会处于NAT之后,网络地址转换技
Web服务的松耦合架构及其开发便捷性使得它的应用范围越来越广‘,越来越多的企业和个人热衷于开发新的Web服务并将其放在网络上,如何对这些Web服务进行识别成为Web服务研究中
基于多层半可分(HSS)结构矩阵的快速算法可有效降低具有数值低秩属性的稠密线性方程组求解的复杂度。随机取样已经被证明是一种高效率的近似分解低秩矩阵的技术。采用随机取
现代化社会的迅速发展,带来了越来越广泛信息传播渠道。与此同时,产生的信息量也发生了爆炸式地增长。因此,无论是普通个体,还是企业,都很难在短时间内从海量的信息中快速找
计算机技术在当今的电信呼叫中心里得到了越来越广泛的应用,从传统的CTI, ACD技术到下一代网络的NGN技术,通过与计算机技术的紧密结合,电信呼叫中心在当今社会里正发挥着越来
人体环境中的微生物群落对人体健康起着至关重要的作用。当前,国内外很多研究都试图发现微生物群落如何影响人体健康,微生物群落之间如何交流,以及群落间交流对人体健康的影响。
随着数值天气预报研究的不断发展,数值模式的复杂度和分辨率在不断提高,其非线性程度也在不断提高,同时新的完全非线性数值模式,比如气溶胶模式、植被模式等,在不断发展,原线性资料
作为智慧城市在中国的应用,无线城市项目的提出旨在解决市民生活信息化问题。无线城市的核心是如何将城市中大量的数据进行收集、整合和处理,并将处理之后的数据转化为信息提
随着互联网的兴起与发展,全球数据量快速增长,逐步进入大数据时代。在大数据时代,互联网、金融等各个行业,利用计算机对海量数据进行分析统计和数据挖掘非常重要,由于数据量的快速
流场是科学与工程数值模拟中重要的数据场,例如大气海洋模拟、飞机与汽车数值模拟和燃烧模拟等,对流场的可视化分析是理解这些数值模拟的关键步骤。而流场可视化也一直是科学可