论文部分内容阅读
近几年,随着各大社交网络平台如微博、微信,以及各种各样的电子商务平台如淘宝、京东的飞速发展,短文本作为信息的一种载体,越来越受到人们的关注。如何从抽象的文本特征中得到结构化的数字特征,并能对其内在含义进行分类,已经是自然语言处理方面的一个关键问题。本文主要设计了一个基于深度学习的短文本分类方法,对如何从文本进行有效的特征表示和特征提取来提升分类效果进行了研究。首先,本文详细介绍了短文本分类的具体流程,针对每个环节简单介绍了在深度学习方法引入之前的常见的几种方法,以此为基础,概述了深度学习方法在处理短文本分类问题上的优势,并阐述了常用于短文本分类的深度模型,并对各个模型的特点进行了分析。为后续本文所提方法奠定了研究基础。其次,为了能更好的得到分类的结果,本文提出了一种联合卷积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent Neural Networks,RNN)进行特征提取的方法。在该方法中,输入层首先将文本中的单词映射到词向量中,然后分别经过CNN和RNN进行特征提取,并在特征融合层将两种特征加权融合,得到最终特征表示用于分类。本文在7个数据集上对单一特征提取和联合特征提取分类能力的对比实验,此外,还探索网络参数设置对模型性能产生的影响,最后在其中常见的2个数据集上和近几年处理短文本分类任务的方法做了比较,结果表明了本文提出方法的有效性。再次,针对短文本分类中的情感分类问题,本文提出了一种基于频率-逆文档频率的情感特征表示方法,并结合主成分分析算法对两种特征表示字典进行融合。该方法在原有的语义特征的基础上,增加了情感倾向特征用于后续的特征提取和分类。通过对比实验,在3个数据集上分别用不同的特征提取方法下完成分类任务,最终,应用了情感特征表示的算法的分类准确率都超过了只使用语义特征表示的分类准确率,证明本文方法可用性。