论文部分内容阅读
随着信息时代的到来,大量的文本信息数据呈现爆炸式的增长。如何从大量的文本数据中提取有效信息成为当前研究的重要任务。而短文本语义相似度计算作为自然语言处理的关键技术被广泛的应用在文本信息检索和智能问答系统等领域。短文本语义相似度计算指的是给定两个短文本序列然后计算它们之间的语义相似度。目前关于短文本语义相似度的研究大致可以分为两种:第一种是基于传统的统计学的方法,比如向量空间模型等;第二种是基于神经网络的方法,比如DSSM模型或者预训练模型BERT模型等。BERT模型通过在大规模语料上进行语言模型的训练,学习单词的通用表征能力,在各种自然语言处理任务上都取得了很好的效果。本文针对BERT模型做了深入的研究,认为BERT模型虽然强大,但是在短文本语义相似度问题上还存在一些缺点,比如忽视了其他位置的上下文信息。本文在调研近年来短文本语义相似度算法的基础上,对短文本级别的语义相似度算法进行研究,提出了对BERT模型全部上下文信息进行聚合来计算短文本语义相似度的网络结构。本文首先提出了基于多种注意力机制-LSTM聚合网络的BERT微调模型。该模型通过BERT模型将该文本序列进行编码,再采用多种注意力函数计算交互信息。最后将通过多种注意力机制和LSTM网络聚合得到的文本相似度向量和[CLS]位置的编码信息进行融合。该方法用不同的注意力机制提取了其他位置的相关信息,因此在三个标准数据集上的效果都超过了BERT模型。同时在所有改进的BERT微调模型中,该模型取得了目前最优的结果。另外,本文也进行了多种注意力机制的分解实验,同时分析了不同注意力函数对最终预测结果的影响。实验结果表明各种注意力函数对模型都有重要影响,但是不同的注意力函数对结果的影响不同。本文又提出了基于MatchPyramid结构的BERT微调模型。该模型改进了传统的用卷积神经网络对BERT模型进行扩展的方法。同样的,先将文本序列对拼接成一个文本序列,然后通过BERT模型将该文本序列进行编码。区别于用一维卷积网络直接对文本编码序列进行卷积,该模型将不同句子的单词编码向量进行两两匹配,再用二维卷积和池化操作对匹配信息进行信息抽取。最后将信息抽取结果和[CLS]位置的编码信息进行融合,计算文本语义相似度。该方法用卷积网络对特征匹配矩阵进行处理,考虑到了文本间单词的匹配信息,因此在释义识别和自然语言推理任务上效果都超过了传统的用卷积神经网络改进BERT的方法。