论文部分内容阅读
摘 要:随着社交网络的飞速发展,互联网平台时刻涌现出大量的文本信息。这些文本信息的情感分析结果对于政府部门监管、消费者决策等具有重要的意义。文本情感分析的方法目前分为基于情感词典方法、基于机器学习方法以及基于深度学习方法。本文主要介绍情感分析方法,并提出未来情感分析研究重点。
关键词:社交网络;文本;情感分析
一、前言
情感分析与观点挖掘是自然语言处理领域的一个基础任务,属于文本分析范畴。其目的是从文本中判定识别观点,挖掘分析情感倾向,抽取得出主要的观点要素。情感分析的处理对象是文本,而文本有大有小,既可以是一个完整的文档,也可以是一个句子,还可以是一个单词或短语。根据文本的这一特性,情感分析研究可以划分为3个层次,即:文档级情感分析、句子级情感分析、方面级情感分析[1]。情感分析的方法根据发展分为基于情感词典方法、基于机器学习方法以及基于深度学习方法。
二、基于情感词典的方法
传统情感分析研究方法主要是基于情感词典的研究方法,基本原理是根据经验将广泛使用的情感词进行归纳整理,当文本输入后就与词典内容进行匹配,寻找文本中与情感词典中重合的情感词,从而判断文本的情感极性。基于情感词典方法性能主要取决于情感词典的构建,这必将耗费大量的资源进行维护。
三、基于机器学习的方法
基于机器学习对文本进行情感分析的原理是人工提取文本特征后由计算机根据某种特定的算法对文本进行处理然后输出情感分类。相较于完全依赖人工构建情感词典的方法,机器学习具有明显的优势,一方面能有效地缓解劳动力的负担且减少非理性判断,另一方面能构建庞大的数据库且能根据时代发展及时对词库进行更新。根据机器学习的发展阶段将机器学习分为有监督的机器学习和弱监督的深度学习。
有监督的机器学习方法相较于构建情感词典的方法虽然有了一定的进步,但是局限性也比较明显。首先,有监督的机器学习方法主要是依赖分类器,还是需要人工对文本特征进行标记。其次,有监督的机器学习方法是计算机根据已有程序对文本进行重复机械操作,并没有“学习”的过程,在进行文本情感分析时不可避免地会产生无效作业。效率不高的有监督学习模型无法适应大数据时代的要求。
四、基于深度学习的方法
传统的文本情感分析方法主要有人工构建情感词典的方法或基于监督的机器学习模型,但是这2种方法不仅耗费大量的人力,而且在大数据时代任务完成效率和任务完成质量较低。深度学习可以通过构建网络模型模拟人脑神经系统对文本进行逐步分析、特征抽取且自动学习优化模型输出,以提高文本分类的正确性。
神经网络模型的使用不可避免地要涉及詞向量嵌入技术,例如Word2Vec,随着深度学习的发展,基于时间序列的模型循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等被应用于情感分析,并取得了较好的效果。RNN有个长依赖问题,在特征参数反向传播的过程中会发生梯度消失或者梯度爆炸问题,为了解决这一问题,LSTM(长短时记忆网络)被提出,不仅解决了长依赖问题,而且还能捕捉到文本的实际上下文特征。目前普通的情感分析已经研究得比较成熟,而方面级的情感分析正在探索研究阶段,主要任务是提取句子中蕴含的方面术语,并进行分类任务。联合方面术语和方面情感词提取任务被制定为序列标签问题,但是由于在许多领域中缺乏有标签的数据,这阻碍了监督方法的有效性,并且先前的方法只能通过方面词和观点词常见句法关系来弥补领域差距,这种方法高度依赖于外部语言资源,因此Li等[2]人探索了一种无监督域自适应的学习方式,并提出一种新颖的选择对抗学习(SAL),以对齐自动捕获其潜在关系的推断相关向量。SAL方法可以动态学习每个单词的对齐权重,以便更重要的单词可以拥有更高的对齐权重,以实现细粒度(单词级)的适应,大量实验证明了所提出的SAL方法的有效性。
五、总结
从上述研究中可以看出众多学者已经意识到了深度学习的优越性,并着力于将深度学习方法应用于文本情感分析任务,从而达到优化情感信息提取以及情感分类的目的。在普通情感分析的研究上已经比较成熟。但是,目前深度学习在方面级情感分析这一领域还处于探索阶段,对于方面术语和方面分类进行端到端建模分析、联合提取方面术语和方面分类是这一研究的重点任务。
参考文献
[1]Y.Y.Zhao,B.Qin,and T.Liu,"Sentiment Analysis," Journal of Software,vol.21,no.8,pp.1834-1848,2010.
[2]Z.Li,X.Li,Y.Wei,L.Bing,Y.Zhang,and Q.Yang,“Transferable End-to-End Aspect-based Sentiment Analysis with Selective Adversarial Learning,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),Hong Kong,China,2019:Association for Computational Linguistics,pp.4590-4600.
作者简介:
丁利(1995-),男,汉族,四川泸州人,学生,工学硕士,单位:西华大学计算机与软件工程学院计算机技术专业,研究方向:情感分析.
关键词:社交网络;文本;情感分析
一、前言
情感分析与观点挖掘是自然语言处理领域的一个基础任务,属于文本分析范畴。其目的是从文本中判定识别观点,挖掘分析情感倾向,抽取得出主要的观点要素。情感分析的处理对象是文本,而文本有大有小,既可以是一个完整的文档,也可以是一个句子,还可以是一个单词或短语。根据文本的这一特性,情感分析研究可以划分为3个层次,即:文档级情感分析、句子级情感分析、方面级情感分析[1]。情感分析的方法根据发展分为基于情感词典方法、基于机器学习方法以及基于深度学习方法。
二、基于情感词典的方法
传统情感分析研究方法主要是基于情感词典的研究方法,基本原理是根据经验将广泛使用的情感词进行归纳整理,当文本输入后就与词典内容进行匹配,寻找文本中与情感词典中重合的情感词,从而判断文本的情感极性。基于情感词典方法性能主要取决于情感词典的构建,这必将耗费大量的资源进行维护。
三、基于机器学习的方法
基于机器学习对文本进行情感分析的原理是人工提取文本特征后由计算机根据某种特定的算法对文本进行处理然后输出情感分类。相较于完全依赖人工构建情感词典的方法,机器学习具有明显的优势,一方面能有效地缓解劳动力的负担且减少非理性判断,另一方面能构建庞大的数据库且能根据时代发展及时对词库进行更新。根据机器学习的发展阶段将机器学习分为有监督的机器学习和弱监督的深度学习。
有监督的机器学习方法相较于构建情感词典的方法虽然有了一定的进步,但是局限性也比较明显。首先,有监督的机器学习方法主要是依赖分类器,还是需要人工对文本特征进行标记。其次,有监督的机器学习方法是计算机根据已有程序对文本进行重复机械操作,并没有“学习”的过程,在进行文本情感分析时不可避免地会产生无效作业。效率不高的有监督学习模型无法适应大数据时代的要求。
四、基于深度学习的方法
传统的文本情感分析方法主要有人工构建情感词典的方法或基于监督的机器学习模型,但是这2种方法不仅耗费大量的人力,而且在大数据时代任务完成效率和任务完成质量较低。深度学习可以通过构建网络模型模拟人脑神经系统对文本进行逐步分析、特征抽取且自动学习优化模型输出,以提高文本分类的正确性。
神经网络模型的使用不可避免地要涉及詞向量嵌入技术,例如Word2Vec,随着深度学习的发展,基于时间序列的模型循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)等被应用于情感分析,并取得了较好的效果。RNN有个长依赖问题,在特征参数反向传播的过程中会发生梯度消失或者梯度爆炸问题,为了解决这一问题,LSTM(长短时记忆网络)被提出,不仅解决了长依赖问题,而且还能捕捉到文本的实际上下文特征。目前普通的情感分析已经研究得比较成熟,而方面级的情感分析正在探索研究阶段,主要任务是提取句子中蕴含的方面术语,并进行分类任务。联合方面术语和方面情感词提取任务被制定为序列标签问题,但是由于在许多领域中缺乏有标签的数据,这阻碍了监督方法的有效性,并且先前的方法只能通过方面词和观点词常见句法关系来弥补领域差距,这种方法高度依赖于外部语言资源,因此Li等[2]人探索了一种无监督域自适应的学习方式,并提出一种新颖的选择对抗学习(SAL),以对齐自动捕获其潜在关系的推断相关向量。SAL方法可以动态学习每个单词的对齐权重,以便更重要的单词可以拥有更高的对齐权重,以实现细粒度(单词级)的适应,大量实验证明了所提出的SAL方法的有效性。
五、总结
从上述研究中可以看出众多学者已经意识到了深度学习的优越性,并着力于将深度学习方法应用于文本情感分析任务,从而达到优化情感信息提取以及情感分类的目的。在普通情感分析的研究上已经比较成熟。但是,目前深度学习在方面级情感分析这一领域还处于探索阶段,对于方面术语和方面分类进行端到端建模分析、联合提取方面术语和方面分类是这一研究的重点任务。
参考文献
[1]Y.Y.Zhao,B.Qin,and T.Liu,"Sentiment Analysis," Journal of Software,vol.21,no.8,pp.1834-1848,2010.
[2]Z.Li,X.Li,Y.Wei,L.Bing,Y.Zhang,and Q.Yang,“Transferable End-to-End Aspect-based Sentiment Analysis with Selective Adversarial Learning,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),Hong Kong,China,2019:Association for Computational Linguistics,pp.4590-4600.
作者简介:
丁利(1995-),男,汉族,四川泸州人,学生,工学硕士,单位:西华大学计算机与软件工程学院计算机技术专业,研究方向:情感分析.