论文部分内容阅读
随着移动互联网的发展,微博逐渐成为中国网民日常沟通交流的重要平台之一。作为中文社交网络的重要组成部分,微博平台所同时具备的社交及媒体属性,使得用户可以实时了解社会热点事件,并发表自己的观点和看法。无论是对于社会事件,还是商品评论,微博的舆论往往可以影响甚至改变事件走向。因此,如何快速地挖掘出单个微博话题下微博用户的舆论倾向,为政府和企业提供决策参考,有效的引导社会舆论,成为目前自然语言处理领域的研究热点之一,具有较强的现实和经济意义。传统的情感分析模型,主要方法是基于语言学建立情感词典。但是,语言词典的建立和维护往往需要耗费大量的时间。为了适应中文微博情感分析任务中存在的数据稀疏、忽略微博文本中的表情和词语特征等特点,近年来,关于基于机器学习方法的文本分析算法的研究越来越深入。在微博文本情感的二元分析任务上,本文首先对比了不同的浅层学习模型。然后在卷积神经网络(Convolutional Neural Networks,CNN)基础上,采用了一种融合双层卷积神经网络和扩展特征矩阵的微博情感分析算法Extended-Dual-CNN,尝试在深度学习领域解决微博情感分析问题。本文分别对浅层学习网络在不同生成词向量模型下,在微博情感分析任务上的效果进行了对比。并在此研究的基础之上,讨论了一种融合双层卷积神经网络和扩展特征矩阵的微博情感分析算法。具体而言,首先,通过One-Hot Encoding和Word2Vec模型,将微博语句生成词向量,并作为特征向量输入到朴素贝叶斯、最大熵模型和支持向量机等浅层学习模型中,对比浅层学习模型之间的优缺点,以及词向量模型对浅层学习模型情感分析效果的影响,得到了微博情感分析任务实验上的最佳模型。然后,设计了Extended-Dual-CNN算法,针对微博用户常用的微博表情、肯定或否定词、表达情感的标点符号等多种词语特征,建立扩展特征矩阵。然后将词向量与扩展特征矩阵拼接后的特征,分别使用static和non-static文本编码输入卷积神经网络的两层,最后得到情感分析结果。通过在COAE2014任务4上的对比实验证明,Extended-Dual-CNN算法取得了93.35%的分析准确率。相比于单层卷积神经网络算法和SVM等传统机器学习算法,Extended-Dual-CNN算法具有明显的优势。