微型博客情感分析框架归纳探究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:y58jm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:TL411+.7 文献标识码:TL 文章编号:1009―914X(2013)28―0622―02
  
  
  一、前言
  微型博客(Micro Blog),即微博,是一种基于用户关系的社交平台,用户通过对其它用户的关注来组建个人小区,进行信息共享、传播以及获取1。2006年,美国推特公司发布了第一个微博类型互联网应用Twitter。2009年,新浪首家推出了“新浪微博”,从此微博正式进入中国互联网领域。微博作为一种社交媒体,越来越受到社会各界的认可。在微博平台中,用户用短短140字发布对个人生活、工作及社会事件的信息,表达着个人情感。截止到2012年底,仅新浪微博注册用户就达到5.03亿,日活跃用户数达到了4,620万2。如今微博正在成为我国网民活跃的主要阵地,也正在越来越深刻地影响着我国社会生活的各个方面。
  微博对社会影响力越来越强,对微博内容的研究也逐渐受到学术界的关注,其中对情感倾向的分析是一个十分有研究价值的方向。微博情感倾向分析是指分析微博发布者在微博内容所要表达的情绪状态的倾向,对微博发布者微博中的情感的倾向进行判断。面对微博每天产生的海量数据,微博情感倾向的分析可以有效了解公众对某些社会事件的态度,可以有效了解用户对某些商品或品牌的喜好程度并且有利于对社会公众的价值体系进行有效把握。微博的情感倾向分析,属于自然语言文本处理的范畴。但是微博中所包含的信息不仅有文字,还包括了表情、图片以及各类多媒体元素。这些微博本身具有的特性因素,使得微博情感倾向分析的方法与一般的文本情感倾向分析有所不同。
  以“微博”和“情感分析”为主题关键词项,在中国期刊全文数据库中进行精确检索,检索到相关文献共15篇;以相同主题关键词项进行模糊检索,检索到相关文献57篇。其中在精确检索的15篇结果中,2013年发布有6篇,2012年发布有7篇,2011年发布有2篇,2011年之前没有相关文献。文献所属学科主要以“互联网技术”和“计算机软件及计算机应用”为主。通过数量可以看出,尽管近几年相关文献有明显的增加,但是微博情感倾向分析研究在国内尚处于起步阶段。
  本文通过调查自然语言文本情感分析领域和微博情感分析的相关文献和研究成果,旨在通过对微博情感倾向分析各个步骤中所涉及的方法进行整理,根据现有研究对微博情感倾向分析各个步骤所面临的问题进行归纳,形成一套相对合理的微博情感分析框架方案。
  二、微博情感分析构架探究
  通过对现有微博情感分析研究的调查,可以下发现有以下几种框架。
  周胜臣等学者认为,微博情感分析主要可以划分为文本预处理,微博情感信息抽取,微博情感分类三个阶段,这三个阶段是存在依赖关系的。微博情感信息抽取又分为情感词抽取与判别,主题抽取和关系抽取三个部分。情感词抽取与判别是指将分词后的微博中带有情感倾向的词语采用算法判别并抽取;主题抽取是指采用相关算法,将微博信息所表达主题确定并提取出来;关系抽取,是指获得微博文本中评价词和对应的修饰对象之间的关系,如“王小明真是聪明啊”,那么这句话中评价对象和修饰词之间的关系为“王小明——聪明”。微博情感分类可以分为主客观文本分类,主观微博情感分类先后两个步骤,通过判断微博主观性与否,进而对主观微博情感进行分类,判断微博的情感倾向。3
  有学者对短文本的倾向性进行了研究,提出了一种递归的思路,从实际流程出发提出了不同的分析步骤。主要包括分词,词性分类,根据词性对形容词、动词和名词进行分别处理,计算词的倾向性,结合程度副词和否定词判断单句的倾向性,根据单句的倾向性,判断合成复句的倾向性,最后根据复句的倾向性,判断短文本的倾向性。4
  有学者提出基于层次结构多策略分析框架,以SVM分类器为核心方法。方法根据微博是否分句,分为两大类策略。不分句策略,是将一条微博消息作为整体,将整个微博的情感机型视为一致,主要有两种具体的分类方法:一步三分类法,提取情感极性特征,根据每条微博的情感标签,训练一个三分类的SVM分类器;二部分类法,先训练主客观SVM分类器,提取主观微博消息,然后对主观微博进行正负二分类SVM分类器。分句策略,是将一条微博消息拆分成若干个句子,然后针对句子进行训练,也包含两类具体方法:一是句子组成规则分类,根据不分句方法中训练结果最优SVM的分类得到每条微博每个句子中的情感极性,然后根据正负句子个数,判断整个微博的情感极性。二是句子组成SVM分类,同样根据不分句方法中训练结果最优的SVM的分类器得到每个句子的情感极性,然后根据微博的句子构成特征,再次训练SVM,对微博进行三分类。对于使用微博句子构成特征的方法,通过抽取主题词,对主题相关的句子进行筛选,从而进行更有效的情感判别。这种基于机器学习的方法,在实际测试中效果较好,正确率可以达到70%左右。5
  还有学者提出基于情绪知识的中文微博情感分类方法。主要将情绪词和表情图片作为情绪知识,对样本进行过滤,获得只含情绪词或者表情图片的样本。情绪图片可以进行人工划分情绪,相对容易。情绪词的自动标注主要分为:将含有情绪词的微博先分为2类,含有正负情绪词的微博文本归为正面评论,负面情绪词的微博文本归为负面情绪;处理否定词,将情绪词带有否定词的文本句子归到反向类别中;对于上一步的结果,将含有冲突情绪的文本删除,以保证自动标注预料的精确性。通过这些方式,可以获得规模较大的标注语料。使用这种方法,通过人工校对发现其准确率可以达到80%。6
  也有学者提出基于朴素贝叶斯的微博情感分类的框架。这也是一种机器学习的方法,主要进行微博预处理,构建朴素贝叶斯分类器两大部分。微博预处理包含微博文本分词、文本情感特征选择、情感特征权值计算、文本向量表示四个模块,其中文本情感特征选择又可以分为基于情感词典的特征选择和基于句法依存的特征选择。经过预处理后,可以得出用于情感分类器训练和评测的向量矩阵,继而训练朴素贝叶斯分类器,然后使用朴素贝叶斯分类器进行分类。根据研究中的采样测试,这种方法的准确率大约在70%左右。7
  三、结论
  微博情感分析的方法构架根据其采取的核心分类方法不同,其构架也各有差异。但是可以基本归纳出,现有的微博情感分析方法构架基本可以微博文本预处理模块和微博情感分类模块。微博文本预处理模块主要将微博原始文本进行处理,根据分类算法的不同,微博预处理部分可能要进行分词,情绪词和情绪图片抽取,主题抽取和关系抽取等,最终目的是得到情感分类算法所需要的数据。情感分类模块则是采用算法将微博预处理得到的资料进行分类,通过调查我们发现,现在学者关注研究的方法有基于语义词典的分类法,以及基于机器学习的SVM,信息增益以及TF-IDF系列方法等,而机器学习的方法在准确率有着更大的优势。有学者对SVM,、Naive Bayes和N-GRAM三种机器学习算法进行了比较,提出了针对不同数据集的各类算法的通用性。8越来越来的人学者关注机器学习算法在此领域的应用,可以看出基于机器学习的微博情感分类分析将成为未来研究的核心。
  参考文献
  [1] 微博 [EB/OL]http://baike.baidu.com/view/1567099.htm 2013/5/1
  [2] 新浪微博注册用户总数达 5.03 亿,2012 年全年增长73%[EB/OL]http://cn.engadget.com/2013/02/21/sina-q42012-earnings/ 2013/5/10
  [3] 周胜臣 瞿文婷 石英子 施询之 孙韵辰 中文微博情感分析研究综述[J] 计算机应用与软件 2013(3):161-164
  [4] 丁建立 慈祥 黄剑雄网络评论倾向性分析[J] 计算机应用 2010(11):2937-2940
  [5] 谢丽星 周明 孙茂松 基于层次结构的多策略中文微博情感分析和特征抽取[J] 中文信息学报 2012(1):73-83
  [6] 庞磊 李寿山 周国栋基于情绪知识的中文微博情感分类方法[J] 计算机工程2012(7):156:158,162
  [7] 林江豪 阳爱民 周咏梅 陈锦 蔡泽键 一种基于朴素贝叶斯的微博情感分类[J] 计算机工程与科学 2012(9):160-165
  [8] 刘志明 刘鲁 基于机器学习的中文微博情感分类实证研究[J] 計算进工程与应用 2012(1):1-4
  注释
  ① 微博 [EB/OL]http://baike.baidu.com/view/1567099.htm 2013/5/1
  ② 新浪微博注册用户总数达 5.03 亿,2012 年全年增长73%[EB/OL]http://cn.engadget.com/2013/02/21/sina-q42012-earnings/ 2013/5/10
  ③ 周胜臣 瞿文婷 石英子 施询之 孙韵辰 中文微博情感分析研究综述[J] 计算机应用与软件 2013(3):161-164
  ④ 丁建立 慈祥 黄剑雄网络评论倾向性分析[J] 计算机应用 2010(11):2937-2940
  ⑤ 谢丽星 周明 孙茂松 基于层次结构的多策略中文微博情感分析和特征抽取[J]中文信息学报 2012(1):73-83
  ⑥ 庞磊 李寿山 周国栋基于情绪知识的中文微博情感分类方法[J] 计算机工程 2012(7):156:158,162
  ⑦ 林江豪 阳爱民 周咏梅 陈锦 蔡泽键 一种基于朴素贝叶斯的微博情感分类[J]计算机工程与科学 2012(9):160-165
  ⑧ 刘志明 刘鲁 基于机器学习的中文微博情感分类实证研究[J] 计算进工程与应用 2012(1):1-4
  
  
其他文献
[摘要]简述了主梁设置吊耳在吊装过程中的重要性和便利性,以其中一种跨度和承载能力的主梁为例进行计算,对其配置的吊耳进行力学方法验证,并通过有限元计算方法,进一步验证了吊耳的可靠性和结构详细应力分布情况,同时指出了力学方法计算和有限元计算结果不同点。  [关键词]耳板式吊耳主梁吊运强度验证有限元分析  中图分类号:UT64 文献标识码:U 文章编号:1009―914X(2013)28―0614―02
期刊
[摘要]工业锅炉耗能是为了生产二次能源——蒸汽或热水,蒸汽或热水通过管网供给各种用热设备,锅炉、管网和用热设备组成了热力系统。因此,锅炉耗能的大小不仅决定于本身热效率的高低,而且也决定于热力系统的能源利用率。因此,对锅炉节能措施进行研究具有十分重要的意义  [关键词]锅炉节能  中图分类号:S210.4 文献标识码:S 文章编号:1009―914X(2013)28―0626―01       一,
期刊
[摘要]三星200标立离心机特殊的后冷结构必须配套相应的空气过滤措施及与之相适应的运行方式。  [关键词]离心机冷却器十字筋板  中图分类号:V228.2+4 文献标识码:V 文章编号:1009―914X(2013)28―0620―01       一、设备概况  唐钢炼铁厂于2010年10月新投产一座离心空压机站,用以替代原来分散的五个小型空压机站(均为活塞或螺杆机)。离心机采用韩国三星原装整体
期刊
[摘要]石垭子水电站尾水出口围堰基础为碎、块石夹粘土,大小混杂,通过采取控制性黏土水泥浆液灌浆技术处理,围堰防渗及取得了良好效果同时也大大的降低了施工成本,可供同类工程参考。  [关键词]围堰防渗技术  中图分类号:TV551 文献标识码:TV 文章编号:1009―914X(2013)28―0616―02       1、概述  贵州洪渡河石垭子水电站位于贵州省东北部,乌江水系左岸一级支流——洪渡
期刊
[摘要]铝合金材料由于其重量轻、耐腐蚀等优点被广泛应用于石油海洋工程中。铝合金的焊接及焊接接头的性能,备受关注。不同的焊接方法和焊接工艺产生的焊接残余应力对接头的疲劳寿命影响极大。以氩弧焊和搅拌摩擦焊工艺,选用不同的铝合金材料,采用小盲孔法测试焊接残余应力。比较了两种焊接方法、工艺所产生的接头焊接残余应力值,为今后铝合金焊接接头中,疲劳性能的计算提供初步的数据。试验结果表明,在铝合金的氩弧焊和搅拌
期刊
[摘要]水工结构中,混泥土结构物出现裂缝是十分常见的問题,本文针对我国目前混凝土结构物裂缝这一普遍性的技术问题,进行了深入的分析与探索,从混泥土裂缝的成因,以及预防措施等多个方面,对混泥土裂缝这一质量问题进行了技术上的改进,旨在对水工建筑的设计与施工能够有一个更好的理论指导。  [关键词]混泥土结构裂缝预防措施水工建筑的设计与施工  中图分类号:R824.2 文献标识码:R 文章编号:1009―9
期刊
[摘要]卧式车床高效钻孔装置安装在卧式车床刀台上,用溜板箱遥控杆控制进给,进给量按设备使用特性可根据产品材质、结构等选择,这解决了利用传统尾座手动进给存在断削、力量不均、切削效率低等问题,最终完成钻孔工作。  这种方法特别适用于加工φ6-φ70之间孔,进给稳定,排屑速度快,相比传统尾座钻孔法效率能够提高3倍,既省时又省力。  [关键词]高效钻孔装置效率  中圖分类号:TG511 文献标识码:TC
期刊
[摘要]烟用接装纸俗称水松纸,是将滤嘴与卷烟烟支接装起来的专用纸。水松纸在近二十年的发展过程中,从最初普通单色涂布型接裝纸发展到一系列如单色、双色、三色烫金接装纸、激光打孔接装纸,复合转移接装纸以及防伪、抗菌等特种接装纸品种。其产品制造工艺的不断创新,纸张外观档次的提升,对产品生产控制过程而言日益趋于复杂,本文结合公司实际生产角度浅谈自身对烟用接装纸的工艺质量管理工作的观点与看法。  [关键词]烟
期刊
[摘要]马丽散是一种由树脂和催化剂两种成分组成的聚亚胶脂材料,主要用于松散媒体或岩体的加固和水流口的封闭,能够有效的封堵巷道裂隙水流,为煤矿生产提供良好的生产及运输环境,为煤矿生产提高了经济效益。盘江精煤股份有限工司老屋基矿主斜井使用马丽散有效的对井壁进行堵水和加固,给主斜井巷道掘进提供良好的条件。  [关键词]马丽散堵水主斜井  中图分类号:TD74 文献标识码:TD 文章编号:1009―914
期刊
[摘要]介绍EDA技术的基本概念和发展过程,以及EDA技术的基本特点和使用的软件,以及EDA技术在电子工程设计中的重要作用,最后指出EDA技术发展前景。  [关键词]EDA技术电子工程发展  中图分类号:U224.9+19 文献标识码:U 文章编号:1009―914X(2013)28―0619―01       1、EDA技术的基本概念  EDA是电子设计自动化(Electronic Design
期刊