论文部分内容阅读
微博是当今非常流行的社交和信息传播平台。2016年,随着里约奥运会与王宝强离婚事件的传播,微博彰显了作为一个信息传播平台的重要地位。在2016年9月,微博月活跃用户达到2.97亿,同比增长34%,日平均活跃用户数量达到1.32亿,同比增长32%。人们通过微博发布消息、转发见闻、评论看法、点赞博文,表达自己对人物和事件的观点,并和其他人交流意见。通过分析微博用户转发和评论的博文,可以快速获知当前的舆论动向和针对特定事务的舆情,为决策者提供巨大参考价值。在企业中,通过用户发布、转发、评论的微博内容中可以分析出用户对产品和服务的喜好程度,这正是本文研究的出发点。基于微博话题的情感分析系统可以快速准确的统计出当前公司或者产品的舆论环境,对于快速决策、危机公关、舆论引导有着重要的应用价值。本文主要针对微博评论进行分析,得到微博评论情感正负极性。本文的主要工作包括:第一,设计爬虫,爬取公司微博以及对应的评论。第二,对数据进行去停用词、分词等处理;第三,基于word2vec得到评论内容对应的词向量,训练了基于支持向量机、卷积神经网络、长短时记忆神经网络的三个分类器,通过对准确率、召回率、F1值以及计算时间等性能指标进行分析对比,选择一个经济实用的算法;第四,设计UI交互界面。为了验证算法的有效性,本文基于公有数据集COAE2013进行评测以保证各种算法的有效性,结果表明长短时记忆神经网络取得了最好的性能;并使用优化后的堆栈长短时记忆神经网络在COAE2013和深圳航空的数据集上进行了实验对比,性能相较于普通的长短时记忆神经网络高1%左右。本文对比实验了目前流行的针对微博短文本分类的方法;另外,为了解决基于微博的语料较少的问题,本文设计了爬虫系统,爬取了大量微博语料,并专门针对特定账号爬取相关博文下的所有评论信息。最后选取了堆栈长短时记忆神经网络模型作为基于微博话题评论情感分析系统的微博评论情感分析方法,搭建了具有可视化、易用性特点的情感分析系统。