论文部分内容阅读
随着互联网技术的不断发展,以及我国信息化建设的不断进步,中国网民数量与日俱增,互联网中也出现了大量中文短文本数据。而句子相似度计算作为自然语言处理中的基础任务,在信息检索、文本分类、机器翻译、智能客服问答系统等应用中都有着重要的作用,因此有着十分广阔的前景与研究价值。本文研究学习了中文句子相似度计算以及深度学习相关技术、网络模型,主要完成了以下工作:1、本文构造了丰富的中文句子数据集,并对这些中文数据都进行了大量的预处理工作,保留了部分停用词,进行了分词、词性标注、命名实体识别、依存句法分析、语义角色分析等处理。2、本文基于经典的神经网络模型,改进并提出了句子相似度模型用于中文句子相似度计算。模型将卷积神经网络与tensor layer结合,采用动态k-max池化技术,因此具有更好的特征提取能力,可以更有效的提取两个句子间的交互信息,从而提高了模型的性能。3、深度神经网络对于句子相似度计算任务是一种有效的方法,但往往需要大量的数据去训练来充分发挥模型的性能,而现有开源的中文已标注数据集比较少,且人工标注成本过高。为解决对此问题,本文基于句子相似度模型,设计并实现了深度辅助神经网络(DANN)模型,使用大量未标注数据辅助训练模型参数。训练过程中对随机梯度下降法采用了AdaDelta算法进行了优化,提高了模型训练的质量。4、为验证本文提出模型的性能,以及策略的可行性,本文设置了几组对比实验。实验结果表明,相比于目前的几种baseline模型中表现最好的MV-LSTM模型,本文提出的句子相似度模型在中文句子相似度计算工作中,有更好的性能,F1值提升了0.024。通过AdaDelta算法的优化,DANN模型训练的质量得到了提高,而且使用大量未标注数据辅助训练模型参数的方法也有效提升了小规模已标注数据集上模型的性能。相比于句子相似度模型,F1值提高了0.023且随着未标注数据数据量的提升,F1值会得到进一步的提升。