基于词典的中文微博情绪分析

被引量 : 0次 | 上传用户:fire1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博受到越来越多的关注和喜爱,成为人们表达个人情绪和感受的重要平台。因此,微博已经成为意见挖掘和情感分析的重要资源,吸引了大量专家学者的关注和研究。针对微博进行情绪分析可以迅速了解大众情绪走向并且对于个人情绪调节有着重要的意义。本文通过对微博的研究分析提出了基于词典的规则方法识别微博所表达的喜、哀、怒、惧、恶、惊六种情绪。首先,提出以词典为依据的基于规则的方法,通过实验详细分析了中文情绪词典在微博情绪分析中的现状,讨论了存在的主要问题并深入讨论了微博中情绪表达的语言特点。基于此,构建了两个重要的微博情绪分析词典:微博表情符词典EmoDic和中文情绪词典SixDic。其中,微博表情符词典EmoDic主要利用互信息方法构建,而中文情绪词典SixDic则是在文本的词性分析基础上,将互信息方法与情绪标注信息混合筛选的方式获取。其次,通过对词典以及微博表达的分析制定了详细的规则,利用本文构建的两个词典进行六类情绪识别实验。实验表明,中文情绪词典SixDic微博情绪分析结果的覆盖率达到65.8%,正确率达到64%,比同等方法下的大连理工情感本体库DUTIR高出12%左右。而表情符词典EmoDic结果比人工挑选表情符有更高的召回率,与中文词典SixDic并用之后,提高情绪分析覆盖率至80.4%,系统通过对表情符加权和使用否定规则达到最佳性能,正确率为74.1%。最后,选取了一元词、中文情绪词典、表情符词典、否定词以及标点符号为特征,采用支持向量机SVM进行有监督的情绪分类实验,结果表明词典特征在情绪识别种的效果优于一元词。将SixDic、EmoDic、否定词和标点符号共用作为特征时SVM情绪分类结果最好,达到61.7%的正确率。实验结果表明,在微博细致情绪识别中,基于词典的规则方法具有明显的优越性。
其他文献
伴随着社会的飞速发展,我们的物资生活得到巨大改善的同时思想道德也遭受着巨大的冲击。目前我国未成年人犯罪的情况越来越严重,尤其是犯罪低龄化增速之快令人不安。近几年,我国
本文对河南淅川徐家岭M11出土小口鼎及浴缶的有关资料作了详细介绍,并将其年代定在战国早期前段。进而就相关问题进行了讨论,认为鼎铭'长贎之'及仆儿钟铭'余贎乘
<正> 淳熙己亥,自湖北漕移湖南。同官王正之置酒小山亭,为赋。更能消几番风雨,匆匆春又归去。惜春长怕花开早,何况落红无数!春且住,见说道,天涯芳草无归路。怨春不语,算只有,
<正>朗读就是清晰洪亮有感情地把文章读出来,它是语文教学的传统方式和根本之法,也是把语文学科工具性和人文性相统一的最佳结合点。古人就有"三分文章七分读"的说法。《九年
<正>鉴赏诗歌的考点,《考试大纲》表述为"能阅读浅易的古代诗文"。包括鉴赏文学作品的形象、语言和表达技巧,评价文章的思想内容和作者的观点态度,考试能力要求E。在高考中一
期刊
<正>"语文味"作为一个学术概念或教学理念提出已将近10个年头了。近10年中,《中华读书报》、《教育文摘周报》等有影响的报刊都对"语文味"理论和实践探索进行过深度报道,K12
1938年,何鲁成编撰的《档案管理与整理》这部有关档案管理理论与实践的论著的出版(商务印书馆出版)是以机关档案工作为主要研究对象的我国近代档案学开始形成的重要标志之一。
目的 :探讨分析实施个性化护理干预对哮喘患者治疗依从性的影响。方法 :选取2012年8月~2013年8月间我院收治的哮喘患者98例作为研究对象,采用随机数字表法将其分为对照组(49
<正>洋洋洒洒的文字,属于杜拉斯的文字。一个原本被认为专门写令人昏昏欲睡而且复杂得要命的文字的作家,小说《情人》,没有想象中的温馨浪漫,更多的则是在作家往事并不如烟的
目的:探讨用口服达英35联合二甲双胍治疗肥胖型多囊卵巢综合症的临床效果。方法:对我院收治的88例肥胖型多囊卵巢综合症患者的临床资料进行回顾性研究。将这88例患者随机分为