基于监督学习的文本情感分析研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:deansam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博、社交网、论坛、维基、网络购物平台等社会网络聚集了大量的用户。这些用户不仅是网上信息资源的浏览和接受者,也是所述资源的提供和传送者。这些信息中既有对人、物、事的客观报道,也不乏对人、物、事的主观表达。如何对来自不同社会网络的主观情感表达进行自动分析和处理已成为亟待解决的难题。其中,文本情感分类问题受到愈来愈多的关注,成为当下的研究热点。  在众多的文本情感分析方法中基于监督学习的方法是目前最具代表性也是最成功的一种方法。然而,它们在处理情感的歧义性、组合性和隐含性等方面却存在或多或少的不足。随着大数据和深度神经网络技术的兴起和蓬勃发展,深度特征在自然语言信息处理领域得到了越来越多的关注。相比于人工设置的底层特征,深度特征可以更全面、更准确地描述蕴含在文本中的情感信息。  在上述研究背景下,本文对文本情感分类问题进行了深入研究。针对文本表达中存在的情感歧义性、组合性和隐含性等问题,在监督学习的框架下开展了文本情感分析改进研究,提出了一些新颖的情感分类方法,期望通过挖掘蕴含于文本中的情感特征来提高文本情感分析的准确性以促进文本情感分析的实用化进程。  本文的主要贡献与创新点如下:  1.构建了一种多层级情感语料库。针对研究用文本情感语料不足的问题,提出了以词语、短语和句子为标注基本单位的多层级情感语料库构建方案。在词语和短语情感资源构建过程中,使用了如下方法:词典翻译方法和情感词汇扩充方法。前者利用已标注的英文情感词典,将源语言的英文情感词汇翻译成目标语言的汉语情感词汇,从而实现汉语情感词典的构建;后者则是根据已构建的小规模种子情感词汇集合,利用Bootstrapping方法,对其进行适当的扩充以构建更大规模的情感词汇集。在句子级情感语料构建过程中,使用了如下方法:人工标注和基于句子对齐的方法。前者由人工标注完成;后者则根据对齐的英汉双语语料,将源语言的英文情感句子映射为目标语言的汉语情感句子,从而实现汉语情感语料的构建。实验结果表明,所构建的情感语料库可以满足本研究的实际需求。  2.提出了一种基于短语的文本情感分析方法。针对文本情感分析中实际存在的情感歧义性和组合性问题,以监督学习为基本框架,从短语层面入手,提出了基于短语的监督学习的文本情感分析方法。该方法首先对输入文本进行短语切分;然后对短语的情感类别进行标注;最后通过对这些情感类别信息进行组合以 最终确定整个文本(句子或短文本)的情感类别。在短语切分的研究中,本文以依存句法为切分依据实现了对句子的短语切分。在短语情感类别标注研究中,提出了基于扩展式条件随机场和基于半马尔科夫条件随机场的两种模型,有机地结合了词语与词语、词语与短语、短语与短语之间的相互关系。在句子的情感类别生成过程中,本文设置了几条情感传递规则来实现短语情感类别信息的整合,并据此完成对句子情感类别的判别。在文本情感倾向性和文本情绪分析的实验中,取得明显优于传统方法的结果。  3.提出了一种基于主动学习的情感分析方法。在已标注语料缺乏的情况下,研究了如何在监督学习的框架下利用大规模未标注语料以提升所构建情感分析模型性能的问题,提出了一种基于主动学习的文本情感分析方法。该方法以基于短语的半马尔科夫条件随机场为基本分类模型,以基于池的主动学习为基本框架来完成对语料的标注。在样例筛选时首先选择最不确定的训练实例,然后利用聚类差法进行进一步筛选,最后由专家对查询结果进行情感信息的标注。该方法充分利用了概率图模型和自然语言本身的特点,可在训练样本不足的情况下取得较好的标注性能。  4.提出了一种基于组合语义特征的情感分析方法。针对基于表面词形的底层特征无法挖掘文本内涵语义信息的问题,提出了基于组合语义特征的文本情感分析方法。组合语义特征是以词语分布式语义模型为基础,针对依存短语模型而构建的能表达语义信息的特征。本文首先提出了组合语义特征的生成算法。然后提出了两种将组合语义特征应用于情感分析的算法:基于组合语义特征的监督学习模型和基于组合语义特征的神经网络方法。上述方法充分挖掘了存在于文本中的语义信息,为隐含情感问题的解决提供了有效途径。
其他文献
钢铁企业是耗能大户,同时也是污染物排放大户。随着我国钢铁企业近20年来的飞速发展,取得了举世瞩目的成就,但是环境污染、能源利用率低、产能过剩等诸多问题也接踵而来,钢铁
CT技术作为一种先进的无损检测技术,能够清晰地显示待测物体内部的细节结构并定量地给出细节轮廓的二维、三维尺寸信息。医学CT可以实现对病灶三维尺寸测量,但不要求太高精度就
设计了一种变矩形截面微通道结构的惯性微流体开关方案,利用水银液滴在微通道中的流动实现开关的导通,克服了传统微机械“固-固”型触点开关触点磨损、接触不稳定、抗干扰能力差等缺点。根据变矩形截面微通道惯性微流体开关的结构和工作机理,建立了开关临界状态下的准静态阈值解析模型。采用VOF模型,考虑了表面张力作用和接触角效应,模拟了水银液滴在微通道中的动态响应历程及其阈值特性。所得结果可为惯性微流体开关设计提
在开展危险环境作业机器人系统研究开发的需求背景下,本课题将四川省科技厅科技支撑计划项目“强辐射环境监测、预警及应急处置机器人系统(2010GZ0229)”与工程应用相结合,以实
随着近年来临床上对止血和血栓形成机制的研究逐渐深入,与之相关的检测项目以及应用逐渐增多,对检测仪器的性能要求也不断提高。血液凝固检测仪,简称血凝仪,是用于对血栓和止
显式模型预测控制弥补了传统的模型预测控制需要反复在线优化计算的缺陷,将复杂的在线优化计算过程通过离线预计算完成,得到相应的状态分区及对应状态分区上的控制律,而在线计算过程则转化为简单的数据搜索过程,从而使得在线计算的时间大为减少,拓展了模型预测控制技术的应用范围。本文将显式模型预测控制方法应用于电机控制中,首先在三相异步电机和无刷直流电机上进行了显式模型预测控制的仿真实验,从理论上验证了显式模型预
随着经济发展,人们的安全意识越来越高,视频监控系统的应用领域也越来越广泛,如安防领域、交通领域、军事领域等。迄今为止,安装的视频监控系统绝大多数仍然是传统的视频监控系统
学位
近年来,对数据挖掘中高维数据的研究越来越多。而在数据分析中,分类是一种有效的方法。但随着数据维数的不断增多,包含的一些不相关或冗余特征会增加分类难度。所以,在分类问