论文部分内容阅读
文本序列是语义以至语意的抽象描述形式。任何基于自然语言的情感表达(例如电影评论和商品评论)都可抽象为某一类随机或者似随机性的文本序列。因而,在自然语言处理领域,针对文本序列的各种处理以及对蕴含于文本序列中的情感特征析取以及情感类型推断,成为人工智能研究中的重要的、也是极具挑战性的课题。本文从两个侧面开展了文本序列分析和情感语意推断的研究。一是研究如何建立随机文本序列的序列模型,二是研究如何通过卷积神经网络手段分析随机文本序列的情感特征并设计新的方法。本文首先对随机文本序列的各类基础模型(例如n-gram、word2vec、CBOW等等)开展了对比性的分析,然后指出朴素贝叶斯模型、支持向量机模型和最大熵模型是适合文本序列情感具体分析与推断研究的工作模型。然后,本文针对文本序列情感分析的卷积神经网络(Text-CNN)方法进行了较深入的研究。指出Text-CNN方法在处理文本序列上的优点是能够对输入样本进行特征提取以及降维处理,但池化层的池化操作会导致输入样本数据信息的损失,而且无法确定特征输出的长度。为此,本文使用一种通过空间金字塔池化(SPP)的方法来力求解决上述两个问题。此外,利用长短期记忆(LSTM)神经网络模型对于时间序列处理的有效性,将Text-CNN方法中的全连接神经网络层替换为LSTM神经网络层。最后,本文对Text-CNN方法进行改进,得到SPP-CNN-LSTM方法。利用该方法,在IMDB数据集和SST数据集上与4种基准算法模型(CNN、LSTM、SPP-CNN和CNN-LSTM模型)方法进行对比试验,结果表明在给定词向量训练模式下SPP-CNN-LSTM方法比其余4种方法的情感分类准确率提升3%~7%。进一步,本文还分析指出:CNN、LSTM、SPP-CNN、CNN-LSTM以及SPP-CNN-LSTM模型在动态skip-gram(DSG)词向量训练模式下的性能优于其他词向量训练模式下的性能。在DSG模式下,实验模型的文本情感分类性能依次递增,在IMDB和SST数据集上的平均准确率分别约为73.2%、75.1%、78.3%、79.6%和83.0%。