论文部分内容阅读
判断两个文本之间的语义相似性是自然语言处理中一个很核心的任务,在查询推荐、自动问答系统以及摘要提取等都起着非常重要的作用。目前许多基于句子相似度计算的方法主要围绕在词法匹配、语义分析树及一些依赖于外部资源的结构化的语义知识来进行判断。但是词法匹配并不能很好地获取语义上的相似性特征,依赖于外部资源的语义知识又不能很通用的适用于所有的应用领域,而最近的研究表明语义分析树也只能较好地作用于语法组织良好的文本上。近年来,深度学习在图像处理和语音识别等领域上应用非常广泛,并取得令人瞩目的成绩,而最近的研究表明深度学习在自然语言处理上也有很好的表现。因此本文提出一种基于长短期记忆网络(LSTM)和卷积神经网络(CNN),并融合文本间额外特征的句子相似度计算模型,利用目前流行的word2vec和GloVe词嵌入向量表示方法对输入语句进行表征,由LSTM和CNN分别提取句子中的前后依赖信息和句子内的局部信息计算出新的句子向量表征,然后结合句子之间的额外特征进行最后句子间的相似性计算。基于深度神经网络的句子相似度计算方法克服了句子语义表示上的词汇鸿沟问题,可以让计算机识别不同表示但是相同意思的句子,同时可以从不同角度来提取句子中的信息,更加丰富的对句子进行表示,最后结合句子间额外的特征,使得计算结果更加准确。为了验证本文提出的句子相似度计算模型的性能,本文在MSRP、SICK2014和MSRVID三个常用的公开数据集上进行语义相似性和语义相关性的实验。实验结果表明,在结合词嵌入向量的LSTM和CNN的基础上,融合文本间的额外多种特征的句子相似度计算模型在各个数据集上的表现都能达到目前最先进的水平,具有较高的可用性和通用性。