论文部分内容阅读
随着互联网行业和深度学习技术的快速发展,自然语言处理领域取得了前所未有的进展。自然语言推理在大数据的背景下取得了丰硕的成果,文本相似度分析是自然语言推理中一项基本而又关键的任务,并在很多自然语言处理任务中起着不可替代的作用,比如:信息检索、自动问答、机器翻译、自动摘要和智能客服。提高中文文本相似度计算准确性,可以基本解决很多自然语言处理领域中文本相关的问题,因此为了提高文本相似度算法的准确率,本文做了大量的相关工作和研究。本文主要研究基于深度学习的中文文本相似度算法,分别训练以词向量和字向量为输入的中文文本相似度模型,并分析不同粒度的输入对模型的影响。本文分析了传统的孪生LSTM模型的缺点,并对模型进行改进,在模型中引入双向LSTM,充分利用双向LSTM每个时间步的信息,达到捕获文本多维度语义信息的效果,并在模型中引入注意力机制,使句子编码所包含的语义信息更加丰富。为了解决一词多义的问题,更好的获取句子的语义编码,本文利用迁移学习技术,将Bert模型引入到文本相似度计算中,并在其基础上结合卷积神经网络来学习句子的深度文本表示,设计并实现了基于Bert的表征模型,并取得了非常好的效果。本文还实现了两个基于交互的文本相似度模型,并将其与本文训练的其他模型进行融合。本文通过多模型融合方法达到进一步提高中文文本相似度计算准确性的目的。本文设计并实现基于FAQ的智能客服系统,将本文实现的中文文本语义相似度模型应用到系统中,系统主要涉及文本预处理和深度融合模型等关键技术。智能客服系统主要是自动回复用户提出的受限领域相关问题。通过对系统的测试,系统自动回复有很高的准确率,这也进一步说明了本文实现的深度学习模型和文本相似度融合模型的有效性。