融合情感词典及深度学习的微博主题情感分析

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:xkd19890528
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,越来越多的人习惯通过网络来表达自己的观点和态度,对这些观点进行收集和分析能够带来很大的应用价值。比如电商平台通过对评论的情感分析,能够了解购买者的喜好,推荐更加合适的产品。社交平台可以通过对群众观点的情感分析,了解大众的对于某些事件的情感倾向性,从而掌控群众的舆论导向,相关部门可以更好的进行舆情监控……本文以常用社交软件——微博为例,对微博文本进行情感分析。微博文本与传统文本有所区别,微博文本更加简洁多样,属于非正式文本,含有大量缩写、新词等,这就导致较为传统的基于情感词典的情感分析方法很大程度受限于词典的完善性。在较新的技术中,基于深度学习的方法则很大程度的受到样本数量的限制,当样本数量较少时,神经网络训练不够充分,难以取得较好的结果。针对上述问题,本文提出了融合两种不同方法的结果以提升效果的思路,同时对两种方法进行优化改进。具体工作如下:(1)在较为传统的基于情感词典的情感分析中,本文提出通过语义相似度对情感词典进行扩展的方法提升基于情感词典进行情感分析的结果。应用同义词词林对情感词典进行扩展;基于Word2Vec对情感词典进行扩展;设计融合的多种关系信息的语义表示方法,该方法可以丰富词语的语义向量空间,通过向量空间中的距离寻找相关词对情感词典进行扩展。这些方法很好的弥补了微博情感词典中缺少的缩写、新词和口语化词汇等空缺,通过实验可以看出更加完善的情感词典有效地提升了基于情感词典进行情感分析的结果。(2)针对近些年来在各个领域表现优秀的深度学习算法,通过初步尝试选择了双向门控循环单元神经网络(BGRU)进行情感分析,实验结果表明当训练样本数目过少时,神经网络模型不能充分训练,会导致分类结果较差。针对这一问题,我们注意到BGRU模型没有考虑到训练过程中每个词的权重问题,这就忽视了每个词对句子整体情感的影响因子是不一样的,所以本文在BGRU模型中,引入了注意力机制,将决定整句情感的重要单词赋予了更高的权重,完成了BGRU-Attention模型。实验结果表明这种模型的结果比基于支持向量机的模型和单一的双向门控循环单元的神神经网络模型有着明显的提升。(3)最后本文尝试将传统的方法和新兴的算法相结合,用情感词典得到的结果对深度学习的得到的结果进行强化,实验结果表明这种方式可以有效地提升情感分类的性能,尤其是针对语料较少不能充分训练的情感类别。
其他文献
目的:通过探索上睑眶隔与轻度上睑下垂的关系,为更好的利用眶隔矫正轻度上睑下垂提供科学依据。方法:本研究将2018年5月至2018年12月期间在我组行切开法重睑成形术的门诊求术
近年来,就业形势严峻一直是我国经济和社会发展面临的一大难题。我国一直把解决好就业作为政府工作的重点内容之一,在发展经济的同时促进就业增长是构建社会主义和谐社会的前
当前,我省,青少年犯罪在全省刑事犯罪中比例较高,成为影响社会治安的一个突出问题而受到人们的普遍关注。但是,我省打击未成年人犯罪,法律上面临三大方面的难题:刑事处罚规定
<正>距离今天52年零57天的上午(1959年7月24日),在莫斯科爆发了美苏冷战时期最著名的一场辩论。对阵双方分别是美国副总统理查德·尼克松与苏联部长会议主席尼基塔·赫鲁晓夫
会议
全总确立的工会工作总体思路,其基本精神就是抓住贯彻实施《劳动法》的契机,进一步突出维护职能,带动工会各项工作,当前和今后一个时期,我市工会经审、审计工作必须坚决贯彻
目的观察红蓝光照射配合氯霉素擦剂和阿达帕林凝胶治疗寻常型痤疮的疗效。方法采用随机数字表法分组,对照组采用氯霉素擦剂和阿达帕林凝胶治疗,观察组在对照组基础上联合采用
单原子负载g-C3N4被广泛用于光电催化二氧化碳还原为燃料、合成氨及其他化学反应1-3,具有广阔的应用前景。优化设计具有高选择性、高效的单原子负载g-C3N4需要弄清具体光催化
目的:观察总结自制中草药排石汤Ⅰ号联合体外冲击波碎石(ESWL)治疗肾结石患者的治疗效果。方法:对2012年2月至2014年1月在我院泌尿外科就诊肾结石患者375例,运用自制中药排石
<正>求最优整数解是线性规划教学中的难点,也是在实际中常常要用到的.关于最优整数解的求法书上给出的解法比较笼统,学生难以理解且不易操作.教师用书在解答第65页的第4题时
目的调查社区医护人员医院感染的认知状况并分析,了解社区医院感染管理的现状。方法随机抽样调查社区医院在职医护人员。结果部分医护人员已经具备了医院感染的基本知识,在工