基于微博话题评论的情感分析研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hw565656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是当今非常流行的社交和信息传播平台。2016年,随着里约奥运会与王宝强离婚事件的传播,微博彰显了作为一个信息传播平台的重要地位。在2016年9月,微博月活跃用户达到2.97亿,同比增长34%,日平均活跃用户数量达到1.32亿,同比增长32%。人们通过微博发布消息、转发见闻、评论看法、点赞博文,表达自己对人物和事件的观点,并和其他人交流意见。通过分析微博用户转发和评论的博文,可以快速获知当前的舆论动向和针对特定事务的舆情,为决策者提供巨大参考价值。在企业中,通过用户发布、转发、评论的微博内容中可以分析出用户对产品和服务的喜好程度,这正是本文研究的出发点。基于微博话题的情感分析系统可以快速准确的统计出当前公司或者产品的舆论环境,对于快速决策、危机公关、舆论引导有着重要的应用价值。本文主要针对微博评论进行分析,得到微博评论情感正负极性。本文的主要工作包括:第一,设计爬虫,爬取公司微博以及对应的评论。第二,对数据进行去停用词、分词等处理;第三,基于word2vec得到评论内容对应的词向量,训练了基于支持向量机、卷积神经网络、长短时记忆神经网络的三个分类器,通过对准确率、召回率、F1值以及计算时间等性能指标进行分析对比,选择一个经济实用的算法;第四,设计UI交互界面。为了验证算法的有效性,本文基于公有数据集COAE2013进行评测以保证各种算法的有效性,结果表明长短时记忆神经网络取得了最好的性能;并使用优化后的堆栈长短时记忆神经网络在COAE2013和深圳航空的数据集上进行了实验对比,性能相较于普通的长短时记忆神经网络高1%左右。本文对比实验了目前流行的针对微博短文本分类的方法;另外,为了解决基于微博的语料较少的问题,本文设计了爬虫系统,爬取了大量微博语料,并专门针对特定账号爬取相关博文下的所有评论信息。最后选取了堆栈长短时记忆神经网络模型作为基于微博话题评论情感分析系统的微博评论情感分析方法,搭建了具有可视化、易用性特点的情感分析系统。
其他文献
<正>急性下壁心肌梗死由右冠状动脉(right coronary artery,RCA)或左旋支(left circumflex coronary artery,LCX)急性闭塞所致,RCA或LCX闭塞的比例为(2.2~7.0):1,平均3.9:1[1
在新全球化的历史语境中,21世纪的马克思主义、特别是她的哲学世界观如何实现与时俱进?笔者认为,存在着三大创新路径,也即“一体两翼”的创新格局:所谓一体,即在对新全球化时代重
目的探讨弥散张量成像纤维束显像(DTI-Tractography)引导下结合术中神经核团定位技术对成人型脑干胶质瘤手术治疗的作用,并进一步总结该病的治疗策略。方法回顾性分析2010~201
18世纪末爱丁堡大学的泰特勒教授在《论翻译的原理》中系统地提出了翻译三原则。他认为优秀的译文应完全传达出原文的优点,原译文中的优点要易于为读者理解并使得两种语言的
目的研究MAT2A(甲硫氨酸腺苷转移酶2A)和NDRG2(N-Myc下游调节基因-2)基因在结直肠癌组织中的表达及两者的相关性,为结直肠癌的研究及治疗提供重要参考。方法选取68例术中切除
看历史《为什么苏州是历史上产生状元最多的城市?》隋唐到北宋时期,由于政治中心在西安、洛阳、开封一线,也就是在黄河沿岸,北方的状元就更多,而随着宋朝南迁,从南宋开始,南
结合新奥法施工理念,详细介绍了付罗坡二号隧道"三台阶七步开挖法"大断面段开挖方法、爆破设计参数优化和洞室变形监控控制技术。
<正>信息产业电子第十一设计研究院科技工程股份有限公司(以下简称"十一科技")是从事电子高科技的企业,如何在"一带一路"建设中占领一席之地是我们面临的挑战。要积极投身"一
今年全国两会期间,习近平总书记参加了政协联组会并发表了重要讲话,讲话内容主要包括公有制经济与非公有制经济的关系,政策的制定与实施的内在关系,非公有制经济健康与非公有
60万m3原油商业储备库是国家“十一五”重点工程“独山子1000万t/a炼油及120万t/a乙烯技术改造工程”的首座现代化原油储备库。工程总投资3.4亿元,该项目工程量大,工期紧,为了安全