论文部分内容阅读
近年来,微博、社交网、论坛、维基、网络购物平台等社会网络聚集了大量的用户。这些用户不仅是网上信息资源的浏览和接受者,也是所述资源的提供和传送者。这些信息中既有对人、物、事的客观报道,也不乏对人、物、事的主观表达。如何对来自不同社会网络的主观情感表达进行自动分析和处理已成为亟待解决的难题。其中,文本情感分类问题受到愈来愈多的关注,成为当下的研究热点。 在众多的文本情感分析方法中基于监督学习的方法是目前最具代表性也是最成功的一种方法。然而,它们在处理情感的歧义性、组合性和隐含性等方面却存在或多或少的不足。随着大数据和深度神经网络技术的兴起和蓬勃发展,深度特征在自然语言信息处理领域得到了越来越多的关注。相比于人工设置的底层特征,深度特征可以更全面、更准确地描述蕴含在文本中的情感信息。 在上述研究背景下,本文对文本情感分类问题进行了深入研究。针对文本表达中存在的情感歧义性、组合性和隐含性等问题,在监督学习的框架下开展了文本情感分析改进研究,提出了一些新颖的情感分类方法,期望通过挖掘蕴含于文本中的情感特征来提高文本情感分析的准确性以促进文本情感分析的实用化进程。 本文的主要贡献与创新点如下: 1.构建了一种多层级情感语料库。针对研究用文本情感语料不足的问题,提出了以词语、短语和句子为标注基本单位的多层级情感语料库构建方案。在词语和短语情感资源构建过程中,使用了如下方法:词典翻译方法和情感词汇扩充方法。前者利用已标注的英文情感词典,将源语言的英文情感词汇翻译成目标语言的汉语情感词汇,从而实现汉语情感词典的构建;后者则是根据已构建的小规模种子情感词汇集合,利用Bootstrapping方法,对其进行适当的扩充以构建更大规模的情感词汇集。在句子级情感语料构建过程中,使用了如下方法:人工标注和基于句子对齐的方法。前者由人工标注完成;后者则根据对齐的英汉双语语料,将源语言的英文情感句子映射为目标语言的汉语情感句子,从而实现汉语情感语料的构建。实验结果表明,所构建的情感语料库可以满足本研究的实际需求。 2.提出了一种基于短语的文本情感分析方法。针对文本情感分析中实际存在的情感歧义性和组合性问题,以监督学习为基本框架,从短语层面入手,提出了基于短语的监督学习的文本情感分析方法。该方法首先对输入文本进行短语切分;然后对短语的情感类别进行标注;最后通过对这些情感类别信息进行组合以 最终确定整个文本(句子或短文本)的情感类别。在短语切分的研究中,本文以依存句法为切分依据实现了对句子的短语切分。在短语情感类别标注研究中,提出了基于扩展式条件随机场和基于半马尔科夫条件随机场的两种模型,有机地结合了词语与词语、词语与短语、短语与短语之间的相互关系。在句子的情感类别生成过程中,本文设置了几条情感传递规则来实现短语情感类别信息的整合,并据此完成对句子情感类别的判别。在文本情感倾向性和文本情绪分析的实验中,取得明显优于传统方法的结果。 3.提出了一种基于主动学习的情感分析方法。在已标注语料缺乏的情况下,研究了如何在监督学习的框架下利用大规模未标注语料以提升所构建情感分析模型性能的问题,提出了一种基于主动学习的文本情感分析方法。该方法以基于短语的半马尔科夫条件随机场为基本分类模型,以基于池的主动学习为基本框架来完成对语料的标注。在样例筛选时首先选择最不确定的训练实例,然后利用聚类差法进行进一步筛选,最后由专家对查询结果进行情感信息的标注。该方法充分利用了概率图模型和自然语言本身的特点,可在训练样本不足的情况下取得较好的标注性能。 4.提出了一种基于组合语义特征的情感分析方法。针对基于表面词形的底层特征无法挖掘文本内涵语义信息的问题,提出了基于组合语义特征的文本情感分析方法。组合语义特征是以词语分布式语义模型为基础,针对依存短语模型而构建的能表达语义信息的特征。本文首先提出了组合语义特征的生成算法。然后提出了两种将组合语义特征应用于情感分析的算法:基于组合语义特征的监督学习模型和基于组合语义特征的神经网络方法。上述方法充分挖掘了存在于文本中的语义信息,为隐含情感问题的解决提供了有效途径。