论文部分内容阅读
中图分类号:TL411+.7 文献标识码:TL 文章编号:1009―914X(2013)28―0622―02
一、前言
微型博客(Micro Blog),即微博,是一种基于用户关系的社交平台,用户通过对其它用户的关注来组建个人小区,进行信息共享、传播以及获取1。2006年,美国推特公司发布了第一个微博类型互联网应用Twitter。2009年,新浪首家推出了“新浪微博”,从此微博正式进入中国互联网领域。微博作为一种社交媒体,越来越受到社会各界的认可。在微博平台中,用户用短短140字发布对个人生活、工作及社会事件的信息,表达着个人情感。截止到2012年底,仅新浪微博注册用户就达到5.03亿,日活跃用户数达到了4,620万2。如今微博正在成为我国网民活跃的主要阵地,也正在越来越深刻地影响着我国社会生活的各个方面。
微博对社会影响力越来越强,对微博内容的研究也逐渐受到学术界的关注,其中对情感倾向的分析是一个十分有研究价值的方向。微博情感倾向分析是指分析微博发布者在微博内容所要表达的情绪状态的倾向,对微博发布者微博中的情感的倾向进行判断。面对微博每天产生的海量数据,微博情感倾向的分析可以有效了解公众对某些社会事件的态度,可以有效了解用户对某些商品或品牌的喜好程度并且有利于对社会公众的价值体系进行有效把握。微博的情感倾向分析,属于自然语言文本处理的范畴。但是微博中所包含的信息不仅有文字,还包括了表情、图片以及各类多媒体元素。这些微博本身具有的特性因素,使得微博情感倾向分析的方法与一般的文本情感倾向分析有所不同。
以“微博”和“情感分析”为主题关键词项,在中国期刊全文数据库中进行精确检索,检索到相关文献共15篇;以相同主题关键词项进行模糊检索,检索到相关文献57篇。其中在精确检索的15篇结果中,2013年发布有6篇,2012年发布有7篇,2011年发布有2篇,2011年之前没有相关文献。文献所属学科主要以“互联网技术”和“计算机软件及计算机应用”为主。通过数量可以看出,尽管近几年相关文献有明显的增加,但是微博情感倾向分析研究在国内尚处于起步阶段。
本文通过调查自然语言文本情感分析领域和微博情感分析的相关文献和研究成果,旨在通过对微博情感倾向分析各个步骤中所涉及的方法进行整理,根据现有研究对微博情感倾向分析各个步骤所面临的问题进行归纳,形成一套相对合理的微博情感分析框架方案。
二、微博情感分析构架探究
通过对现有微博情感分析研究的调查,可以下发现有以下几种框架。
周胜臣等学者认为,微博情感分析主要可以划分为文本预处理,微博情感信息抽取,微博情感分类三个阶段,这三个阶段是存在依赖关系的。微博情感信息抽取又分为情感词抽取与判别,主题抽取和关系抽取三个部分。情感词抽取与判别是指将分词后的微博中带有情感倾向的词语采用算法判别并抽取;主题抽取是指采用相关算法,将微博信息所表达主题确定并提取出来;关系抽取,是指获得微博文本中评价词和对应的修饰对象之间的关系,如“王小明真是聪明啊”,那么这句话中评价对象和修饰词之间的关系为“王小明——聪明”。微博情感分类可以分为主客观文本分类,主观微博情感分类先后两个步骤,通过判断微博主观性与否,进而对主观微博情感进行分类,判断微博的情感倾向。3
有学者对短文本的倾向性进行了研究,提出了一种递归的思路,从实际流程出发提出了不同的分析步骤。主要包括分词,词性分类,根据词性对形容词、动词和名词进行分别处理,计算词的倾向性,结合程度副词和否定词判断单句的倾向性,根据单句的倾向性,判断合成复句的倾向性,最后根据复句的倾向性,判断短文本的倾向性。4
有学者提出基于层次结构多策略分析框架,以SVM分类器为核心方法。方法根据微博是否分句,分为两大类策略。不分句策略,是将一条微博消息作为整体,将整个微博的情感机型视为一致,主要有两种具体的分类方法:一步三分类法,提取情感极性特征,根据每条微博的情感标签,训练一个三分类的SVM分类器;二部分类法,先训练主客观SVM分类器,提取主观微博消息,然后对主观微博进行正负二分类SVM分类器。分句策略,是将一条微博消息拆分成若干个句子,然后针对句子进行训练,也包含两类具体方法:一是句子组成规则分类,根据不分句方法中训练结果最优SVM的分类得到每条微博每个句子中的情感极性,然后根据正负句子个数,判断整个微博的情感极性。二是句子组成SVM分类,同样根据不分句方法中训练结果最优的SVM的分类器得到每个句子的情感极性,然后根据微博的句子构成特征,再次训练SVM,对微博进行三分类。对于使用微博句子构成特征的方法,通过抽取主题词,对主题相关的句子进行筛选,从而进行更有效的情感判别。这种基于机器学习的方法,在实际测试中效果较好,正确率可以达到70%左右。5
还有学者提出基于情绪知识的中文微博情感分类方法。主要将情绪词和表情图片作为情绪知识,对样本进行过滤,获得只含情绪词或者表情图片的样本。情绪图片可以进行人工划分情绪,相对容易。情绪词的自动标注主要分为:将含有情绪词的微博先分为2类,含有正负情绪词的微博文本归为正面评论,负面情绪词的微博文本归为负面情绪;处理否定词,将情绪词带有否定词的文本句子归到反向类别中;对于上一步的结果,将含有冲突情绪的文本删除,以保证自动标注预料的精确性。通过这些方式,可以获得规模较大的标注语料。使用这种方法,通过人工校对发现其准确率可以达到80%。6
也有学者提出基于朴素贝叶斯的微博情感分类的框架。这也是一种机器学习的方法,主要进行微博预处理,构建朴素贝叶斯分类器两大部分。微博预处理包含微博文本分词、文本情感特征选择、情感特征权值计算、文本向量表示四个模块,其中文本情感特征选择又可以分为基于情感词典的特征选择和基于句法依存的特征选择。经过预处理后,可以得出用于情感分类器训练和评测的向量矩阵,继而训练朴素贝叶斯分类器,然后使用朴素贝叶斯分类器进行分类。根据研究中的采样测试,这种方法的准确率大约在70%左右。7
三、结论
微博情感分析的方法构架根据其采取的核心分类方法不同,其构架也各有差异。但是可以基本归纳出,现有的微博情感分析方法构架基本可以微博文本预处理模块和微博情感分类模块。微博文本预处理模块主要将微博原始文本进行处理,根据分类算法的不同,微博预处理部分可能要进行分词,情绪词和情绪图片抽取,主题抽取和关系抽取等,最终目的是得到情感分类算法所需要的数据。情感分类模块则是采用算法将微博预处理得到的资料进行分类,通过调查我们发现,现在学者关注研究的方法有基于语义词典的分类法,以及基于机器学习的SVM,信息增益以及TF-IDF系列方法等,而机器学习的方法在准确率有着更大的优势。有学者对SVM,、Naive Bayes和N-GRAM三种机器学习算法进行了比较,提出了针对不同数据集的各类算法的通用性。8越来越来的人学者关注机器学习算法在此领域的应用,可以看出基于机器学习的微博情感分类分析将成为未来研究的核心。
参考文献
[1] 微博 [EB/OL]http://baike.baidu.com/view/1567099.htm 2013/5/1
[2] 新浪微博注册用户总数达 5.03 亿,2012 年全年增长73%[EB/OL]http://cn.engadget.com/2013/02/21/sina-q42012-earnings/ 2013/5/10
[3] 周胜臣 瞿文婷 石英子 施询之 孙韵辰 中文微博情感分析研究综述[J] 计算机应用与软件 2013(3):161-164
[4] 丁建立 慈祥 黄剑雄网络评论倾向性分析[J] 计算机应用 2010(11):2937-2940
[5] 谢丽星 周明 孙茂松 基于层次结构的多策略中文微博情感分析和特征抽取[J] 中文信息学报 2012(1):73-83
[6] 庞磊 李寿山 周国栋基于情绪知识的中文微博情感分类方法[J] 计算机工程2012(7):156:158,162
[7] 林江豪 阳爱民 周咏梅 陈锦 蔡泽键 一种基于朴素贝叶斯的微博情感分类[J] 计算机工程与科学 2012(9):160-165
[8] 刘志明 刘鲁 基于机器学习的中文微博情感分类实证研究[J] 計算进工程与应用 2012(1):1-4
注释
① 微博 [EB/OL]http://baike.baidu.com/view/1567099.htm 2013/5/1
② 新浪微博注册用户总数达 5.03 亿,2012 年全年增长73%[EB/OL]http://cn.engadget.com/2013/02/21/sina-q42012-earnings/ 2013/5/10
③ 周胜臣 瞿文婷 石英子 施询之 孙韵辰 中文微博情感分析研究综述[J] 计算机应用与软件 2013(3):161-164
④ 丁建立 慈祥 黄剑雄网络评论倾向性分析[J] 计算机应用 2010(11):2937-2940
⑤ 谢丽星 周明 孙茂松 基于层次结构的多策略中文微博情感分析和特征抽取[J]中文信息学报 2012(1):73-83
⑥ 庞磊 李寿山 周国栋基于情绪知识的中文微博情感分类方法[J] 计算机工程 2012(7):156:158,162
⑦ 林江豪 阳爱民 周咏梅 陈锦 蔡泽键 一种基于朴素贝叶斯的微博情感分类[J]计算机工程与科学 2012(9):160-165
⑧ 刘志明 刘鲁 基于机器学习的中文微博情感分类实证研究[J] 计算进工程与应用 2012(1):1-4
一、前言
微型博客(Micro Blog),即微博,是一种基于用户关系的社交平台,用户通过对其它用户的关注来组建个人小区,进行信息共享、传播以及获取1。2006年,美国推特公司发布了第一个微博类型互联网应用Twitter。2009年,新浪首家推出了“新浪微博”,从此微博正式进入中国互联网领域。微博作为一种社交媒体,越来越受到社会各界的认可。在微博平台中,用户用短短140字发布对个人生活、工作及社会事件的信息,表达着个人情感。截止到2012年底,仅新浪微博注册用户就达到5.03亿,日活跃用户数达到了4,620万2。如今微博正在成为我国网民活跃的主要阵地,也正在越来越深刻地影响着我国社会生活的各个方面。
微博对社会影响力越来越强,对微博内容的研究也逐渐受到学术界的关注,其中对情感倾向的分析是一个十分有研究价值的方向。微博情感倾向分析是指分析微博发布者在微博内容所要表达的情绪状态的倾向,对微博发布者微博中的情感的倾向进行判断。面对微博每天产生的海量数据,微博情感倾向的分析可以有效了解公众对某些社会事件的态度,可以有效了解用户对某些商品或品牌的喜好程度并且有利于对社会公众的价值体系进行有效把握。微博的情感倾向分析,属于自然语言文本处理的范畴。但是微博中所包含的信息不仅有文字,还包括了表情、图片以及各类多媒体元素。这些微博本身具有的特性因素,使得微博情感倾向分析的方法与一般的文本情感倾向分析有所不同。
以“微博”和“情感分析”为主题关键词项,在中国期刊全文数据库中进行精确检索,检索到相关文献共15篇;以相同主题关键词项进行模糊检索,检索到相关文献57篇。其中在精确检索的15篇结果中,2013年发布有6篇,2012年发布有7篇,2011年发布有2篇,2011年之前没有相关文献。文献所属学科主要以“互联网技术”和“计算机软件及计算机应用”为主。通过数量可以看出,尽管近几年相关文献有明显的增加,但是微博情感倾向分析研究在国内尚处于起步阶段。
本文通过调查自然语言文本情感分析领域和微博情感分析的相关文献和研究成果,旨在通过对微博情感倾向分析各个步骤中所涉及的方法进行整理,根据现有研究对微博情感倾向分析各个步骤所面临的问题进行归纳,形成一套相对合理的微博情感分析框架方案。
二、微博情感分析构架探究
通过对现有微博情感分析研究的调查,可以下发现有以下几种框架。
周胜臣等学者认为,微博情感分析主要可以划分为文本预处理,微博情感信息抽取,微博情感分类三个阶段,这三个阶段是存在依赖关系的。微博情感信息抽取又分为情感词抽取与判别,主题抽取和关系抽取三个部分。情感词抽取与判别是指将分词后的微博中带有情感倾向的词语采用算法判别并抽取;主题抽取是指采用相关算法,将微博信息所表达主题确定并提取出来;关系抽取,是指获得微博文本中评价词和对应的修饰对象之间的关系,如“王小明真是聪明啊”,那么这句话中评价对象和修饰词之间的关系为“王小明——聪明”。微博情感分类可以分为主客观文本分类,主观微博情感分类先后两个步骤,通过判断微博主观性与否,进而对主观微博情感进行分类,判断微博的情感倾向。3
有学者对短文本的倾向性进行了研究,提出了一种递归的思路,从实际流程出发提出了不同的分析步骤。主要包括分词,词性分类,根据词性对形容词、动词和名词进行分别处理,计算词的倾向性,结合程度副词和否定词判断单句的倾向性,根据单句的倾向性,判断合成复句的倾向性,最后根据复句的倾向性,判断短文本的倾向性。4
有学者提出基于层次结构多策略分析框架,以SVM分类器为核心方法。方法根据微博是否分句,分为两大类策略。不分句策略,是将一条微博消息作为整体,将整个微博的情感机型视为一致,主要有两种具体的分类方法:一步三分类法,提取情感极性特征,根据每条微博的情感标签,训练一个三分类的SVM分类器;二部分类法,先训练主客观SVM分类器,提取主观微博消息,然后对主观微博进行正负二分类SVM分类器。分句策略,是将一条微博消息拆分成若干个句子,然后针对句子进行训练,也包含两类具体方法:一是句子组成规则分类,根据不分句方法中训练结果最优SVM的分类得到每条微博每个句子中的情感极性,然后根据正负句子个数,判断整个微博的情感极性。二是句子组成SVM分类,同样根据不分句方法中训练结果最优的SVM的分类器得到每个句子的情感极性,然后根据微博的句子构成特征,再次训练SVM,对微博进行三分类。对于使用微博句子构成特征的方法,通过抽取主题词,对主题相关的句子进行筛选,从而进行更有效的情感判别。这种基于机器学习的方法,在实际测试中效果较好,正确率可以达到70%左右。5
还有学者提出基于情绪知识的中文微博情感分类方法。主要将情绪词和表情图片作为情绪知识,对样本进行过滤,获得只含情绪词或者表情图片的样本。情绪图片可以进行人工划分情绪,相对容易。情绪词的自动标注主要分为:将含有情绪词的微博先分为2类,含有正负情绪词的微博文本归为正面评论,负面情绪词的微博文本归为负面情绪;处理否定词,将情绪词带有否定词的文本句子归到反向类别中;对于上一步的结果,将含有冲突情绪的文本删除,以保证自动标注预料的精确性。通过这些方式,可以获得规模较大的标注语料。使用这种方法,通过人工校对发现其准确率可以达到80%。6
也有学者提出基于朴素贝叶斯的微博情感分类的框架。这也是一种机器学习的方法,主要进行微博预处理,构建朴素贝叶斯分类器两大部分。微博预处理包含微博文本分词、文本情感特征选择、情感特征权值计算、文本向量表示四个模块,其中文本情感特征选择又可以分为基于情感词典的特征选择和基于句法依存的特征选择。经过预处理后,可以得出用于情感分类器训练和评测的向量矩阵,继而训练朴素贝叶斯分类器,然后使用朴素贝叶斯分类器进行分类。根据研究中的采样测试,这种方法的准确率大约在70%左右。7
三、结论
微博情感分析的方法构架根据其采取的核心分类方法不同,其构架也各有差异。但是可以基本归纳出,现有的微博情感分析方法构架基本可以微博文本预处理模块和微博情感分类模块。微博文本预处理模块主要将微博原始文本进行处理,根据分类算法的不同,微博预处理部分可能要进行分词,情绪词和情绪图片抽取,主题抽取和关系抽取等,最终目的是得到情感分类算法所需要的数据。情感分类模块则是采用算法将微博预处理得到的资料进行分类,通过调查我们发现,现在学者关注研究的方法有基于语义词典的分类法,以及基于机器学习的SVM,信息增益以及TF-IDF系列方法等,而机器学习的方法在准确率有着更大的优势。有学者对SVM,、Naive Bayes和N-GRAM三种机器学习算法进行了比较,提出了针对不同数据集的各类算法的通用性。8越来越来的人学者关注机器学习算法在此领域的应用,可以看出基于机器学习的微博情感分类分析将成为未来研究的核心。
参考文献
[1] 微博 [EB/OL]http://baike.baidu.com/view/1567099.htm 2013/5/1
[2] 新浪微博注册用户总数达 5.03 亿,2012 年全年增长73%[EB/OL]http://cn.engadget.com/2013/02/21/sina-q42012-earnings/ 2013/5/10
[3] 周胜臣 瞿文婷 石英子 施询之 孙韵辰 中文微博情感分析研究综述[J] 计算机应用与软件 2013(3):161-164
[4] 丁建立 慈祥 黄剑雄网络评论倾向性分析[J] 计算机应用 2010(11):2937-2940
[5] 谢丽星 周明 孙茂松 基于层次结构的多策略中文微博情感分析和特征抽取[J] 中文信息学报 2012(1):73-83
[6] 庞磊 李寿山 周国栋基于情绪知识的中文微博情感分类方法[J] 计算机工程2012(7):156:158,162
[7] 林江豪 阳爱民 周咏梅 陈锦 蔡泽键 一种基于朴素贝叶斯的微博情感分类[J] 计算机工程与科学 2012(9):160-165
[8] 刘志明 刘鲁 基于机器学习的中文微博情感分类实证研究[J] 計算进工程与应用 2012(1):1-4
注释
① 微博 [EB/OL]http://baike.baidu.com/view/1567099.htm 2013/5/1
② 新浪微博注册用户总数达 5.03 亿,2012 年全年增长73%[EB/OL]http://cn.engadget.com/2013/02/21/sina-q42012-earnings/ 2013/5/10
③ 周胜臣 瞿文婷 石英子 施询之 孙韵辰 中文微博情感分析研究综述[J] 计算机应用与软件 2013(3):161-164
④ 丁建立 慈祥 黄剑雄网络评论倾向性分析[J] 计算机应用 2010(11):2937-2940
⑤ 谢丽星 周明 孙茂松 基于层次结构的多策略中文微博情感分析和特征抽取[J]中文信息学报 2012(1):73-83
⑥ 庞磊 李寿山 周国栋基于情绪知识的中文微博情感分类方法[J] 计算机工程 2012(7):156:158,162
⑦ 林江豪 阳爱民 周咏梅 陈锦 蔡泽键 一种基于朴素贝叶斯的微博情感分类[J]计算机工程与科学 2012(9):160-165
⑧ 刘志明 刘鲁 基于机器学习的中文微博情感分类实证研究[J] 计算进工程与应用 2012(1):1-4