论文部分内容阅读
近些年来,随着互联网的发展人们越来越习惯于在网络上表达自己的观点与情感。为了自动分析这些主观性文本,情感分析在自然语言处理研究领域得到了很大的关注。其中,文本情感分类是情感分析中研究最广泛的一个基本任务。然而,大部分已有的研究都假设在情感分类中,参与分类的正负类样本是平衡的,该假设和实际情况并不相符。在实际收集的产品评论语料中,我们发现正、负类样本的数目差距很大。样本分布的不平衡往往会使传统的机器学习分类方法在分类过程中严重偏向多样本类别,从而使分类的性能急剧下降。因此,不平衡数据的情感分类问题是一个迫切需要解决的实际问题。本文主要针对情感文本分类中的不平衡问题,开展了以下几方面的研究内容:首先,本文提出了一种基于样本集成的方法用于不平衡情感分类问题中。在基于监督学习的不平衡分类中,欠采样是一种常用的解决不平衡问题的方法。但是欠采样技术的一个很大的缺点是无法充分利用多类样本。因此,为了充分利用多类样本中的信息,我们通过在多类样本中进行多次欠采样的方式和少类样本一起构建基于样本集成学习的融合算法以解决情感分类中的不平衡问题,同时我们提出基于分类算法集成学习的方式来提高集成学习中基分类器的差异性,从而提高分类器融合的分类性能。其次,本文提出了一种基于中心向量的分类方法用于不平衡情感分类问题中。在情感分类建模时,用于表示文本的特征空间的维度非常高,而且每个特征向量的有效数据非常稀疏。因此,在不平衡情感分类中,除了存在样本不平衡问题外,在正负类中特征的分布也是非常不平衡。本文在基于聚类的欠采样框架下,提出基于中心向量平滑策略的分类方法用于同时解决不平衡情感分类中的特征不平衡和样本不平衡问题。最后,本文提出了基于半监督学习的不平衡情感分类方法,用于解决不平衡情感分类问题中的标注样本缺乏问题。本文的方法是一种基于动态随机特征子空间生成的协同训练方法,既能充分利用样本又能尽量避免分类器的冗余,能有效利用非标注样本提高不平衡情感分类的分类性能。