论文部分内容阅读
在自然语言处理领域中,随着网络的普及,研究者对中文短文本语义相似度计算方法的关注越来越多。中文是表意的文字,相对英文,中文没有严格的语法;短文本具有长度较短、表达方式多样化、文法结构不规范的特点。传统的处理方法存在文本特征表示稀疏、语义信息丢失等问题;现有深度学习方法解决了传统方法的部分问题,但忽略了中文短文本的特点。本文基于深度学习的方法,针对中文短文本的特点,主要做了以下工作:(1)建立了中文短文本语义相似度数据集管理系统并构建了数据集。深度学习模型的训练结果很大程度取决于训练数据集的质量。目前国内外有一些英文短文本相似度训练数据集,但缺乏中文短文本的训练数据集。因此,本文构建数据集管理系统,通过普通用户分享主句与回复主句的方式构建中文短文本语义相似度的训练、测试数据集。一条主句、一条回复和一个相似度值构成一组数据,共收集了 12769组数据。(2)构建了基于停用词与同义词词林的中文短文本语义相似度计算模型。目前,大部分短文本语义相似度计算模型的训练语料必须去掉停用词,但停用词对中文分词、语态分析、语义相似度计算有重要作用。因此,本文针对中文短文本的特点,在训练语料中保留停用词,在模型的训练语料中加入了同义词词林。根据测试结果,对比用Word2Vec和Glove训练词向量对模型结果的影响。结果显示,保留停用词,加入同义词词林后,模型准确度提高了 2%-3%。(3)构建了中文双序列短文本语义相似度计算模型。近几年,国内外的短文本语义相似度计算模型都是单序列,没有考虑同词异义、同义异词、短语词序等语义歧义现象。为了克服这些缺点,本文提出了中文双序列短文本语义相似度计算模型,采用结构、参数完全相同的两个LSTM处理文本序列,并加入结果的乘积和方差,放大文本的相同点和差异性。最后,比较本模型与基于CNN的语义相似度计算模型、百度语义相似度计算模型的测试结果,结果显示,本模型在准确率、召回率等方面优于二者6%以上。