基于微博表情符号的中文情感词典构建方法研究

来源 :兰州理工大学 | 被引量 : 11次 | 上传用户:linda456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客(即微博)作为一种当前最流行的社交网络媒体,是一个面向用户的信息发布、交流、传播的社交平台。随着移动互联网的不断发展,微博用户的数量逐年上升,由此产生的海量数据信息在舆情事件的发起和传播中起着至关重要的引导作用,并为舆情监控和文本处理提供重要的数据支撑。微博是时代的产物,微博文本有着与传统文本不同的特点,如微博新闻、用户状态和用户评论的内容长度都不超过140字,并且微博文本的内容包含文字、图片、超链接等多种数据格式,因此在对微博文本进行分析和处理的过程中,其他格式的数据信息是不能忽略的。表情符号作为一种新的网络语言普遍应用在现代社交平台中,在微博文本中或多或少的会出现表情符号,甚至个别微博由连续的表情符号构成。因此,表情符号往往能够代替文字成为用户表达情感的图片工具,包含了丰富的情感信息,在微博文本倾向性分析中起到了至关重要的作用。本文提出基于表情符号的中文微博文本倾向性分析方法。通过新浪微博公共API采集微博数据,并对微博文本进行预处理,筛选出种子表情符号作为概念特征,将表情符号分为高兴、喜爱、愤怒、悲伤、厌恶五种情绪。通过计算种子表情符与大量微博文本的互信息对微博文本进行正负向情感分类和情绪分类,在已标注语料的基础上,对抽取到的情感词进行标注,将已有的情感词典进行筛选、整合,并且加入了大量现代网络词汇,生成一个新的情感词典。该词典包含了网络情感词、传统情感词和微博中的常见词汇,旨在为研究微博,乃至其他社交网络文本倾向性分析提供语料库支撑。本文将文本情感词典构建作为目标,通过标注微博文本对情感词进行分类,以互信息作为分类标准,计算情感词与微博文本的互信息,将情感词标注为高兴、喜爱、愤怒、悲伤、厌恶五种情绪类别,实现情感词典的自动构建。并且在情感词典构建的过程中实现了微博文本的情感分类和情绪分类,通过一系列的对比实验,表明本文的情感分类方法能够提高分类的准确率。在情感词典自动构建方面,本文的情感词典在五种情绪下的准确率、召回率和F值都超过了80%;在文本情绪和情感分类方面,比较了大连理工大学情感词汇本体库、How Net等通用情感词典,实验结果表明,该方法生成的情感词典获得了较好的评价效果,能够很好地覆盖微博数据。
其他文献
取保候审制度作为一种羁押替代性强制措施,其存在的意义主要体现为:是可以让犯罪嫌疑人、被告人继续照顾家庭或从事相关的工作;二是节约有限的司法资源,减少不必要的浪费,实现
期刊
探讨鼎湖山南亚热带季风常绿阔叶林不同层次优势植物热值一般规律,可为该群落能量特征和生态效率研究提供基础资料和科学依据.2002年用PARR 1281型氧弹热值仪测定了该群落不
“人权保障”原则是我国宪法规定的一项基本原则,于2012年写入《中华人民共和国刑事诉讼法》。“尊重和保障人权”原则的确立使得刑事司法领域关于保护平等权利和自由的理念
目的总结白蛋白结合型紫杉醇在晚期胰腺癌患者治疗中的护理体会。方法回顾接受白蛋白紫杉醇联合吉西他滨治疗的72例晚期胰腺癌患者资料,分析患者的一般资料、用药后的疗效评
<正>2012年修改的民事诉讼法新增了一项诉讼制度,即第五十六条规定:"对当事人双方的诉讼标的,第三人认为有独立请求权的,有权提起诉讼。对当事人双方的诉讼标的,第三人虽然没
总结了新冠肺炎定点收治医院非感染患儿住院防控管理策略。包括:调整病区布局、优化就诊流程、完善入院评估、实行病区门禁管理、加强人员管理及加强病区环境的清洁、消毒等
为了增强桦木醇的极性,以其为母体,合成了桦木醇丁二酸酯和桦木醇戊二酸酯,采用红外光谱、核磁共振和质谱对产物进行了结构表征。选用平衡法测定了桦木醇、桦木醇丁二酸酯和
9月28日至29日,由河南省畜牧总站、省家禽业协会主办的第32届中原畜牧业交易博览会(以下简称“博览会”)在郑州国际会展中心开幕,来自国内外的600多家企业参会。据了解,自198
美国民俗学者大卫·哈弗德基于超自然信仰鬼压床的研究案例提出了"经验中心研究法",它是民俗学者在民间信仰研究传统的脉络下,公平对待信仰和鲜活经验的尝试,同时也与宗教学