论文部分内容阅读
随着移动互联网的迅猛发展,网民参与社会热点讨论的热情不断高涨,新浪微博成为网民发表观点抒发情感的重要平台,基于新浪微博的社交网络很大程度上反应了中国人的社交行为和情感倾向。如何快速挖掘出新浪微博中隐藏的情感信息,为政府和企业的决策提供有效的辅助信息,正成为自然语言处理领域的研究热点。传统的情感分析需要花费大量的时间提取数据中的特征,并且往往需要与语法规则相结合才能取得比较好的结果,但是在大数据时代,数据量越来越大,人工提取特征的难度不断加大。本文提出使用词向量加深度学习组合的方式去学习数据中的情感信息,其中,使用无监督的Word2vec和Glove模型将数据训练成词向量,词向量将取代人工提取的特征,这种方法节省了人力,并且使用深度学习模型自动学习词向量中的情感信息,最后,通过对比实验验证深度学习模型能够在语句级情感分析任务中取得较好的效果。本文通过Word2vec和Glove语言模型将微博评论数据训练生成两种词向量并分别输入到浅层学习模型SVM、Logistic Regression、Naive Bayesian和深度学习模型LSTM、CNN、LSTM+CNN中,浅层学习模型和深度学习模型通过学习得到词向量中隐藏的情感信息并给出情感分类的结果,根据实验结果统计模型的准确率、召回率等模型性能评估指标,其中,浅层学习模型最高的准确率接近78.1%,深度学习模型最高的准确率接近84.5%。通过对比实验结果本文发现,与浅层学习模型相比,深度学习模型中的LSTM能够存储远距离的信息,CNN能够提取不同维度的特征,这些功能能够更好地挖掘出词向量中隐藏的情感信息,而浅层学习模型在挖掘词向量中隐藏的情感信息时损失了词与词之间的语义信息,这是浅层学习模型性能下降的一个主要原因。与Word2vec词向量相比,Glove词向量能够利用全局统计信息,将更多的情感信息存储到词向量中,而Word2vec只能利用局部信息,因此Glove词向量情感分类的效果要好于Word2vec词向量。