论文部分内容阅读
随着WWW的迅速发展,网络上出现了越来越多包含着巨大利用价值的评价文本,如何自动处理这些主观文本显得愈发重要。情感分析正是在这样的背景下产生并取得迅猛发展的一个研究方向。其中,文本情感分类是情感分析研究中最广泛的一个基本任务。情感分类中,现有的研究主要致力于提升监督学习的效果。然而,监督学习往往需要大量的标注样本,而人工标注这些样本非常耗时耗力。因此,在少量标注样本的基础上,充分利用大量未标注样本的半监督情感分类方法受到越来越广泛的关注。其中,半监督集成学习方法上的研究还十分缺乏。本文主要针对情感分类中的半监督集成学习方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出一种基于随机特征子空间自训练的半监督情感分类方法。核心思想是在标注样本基础上,利用随机特征子空间训练多个子分类器,并采用最大置信度的集成方式,选择置信度高的子分类器做分类决策。该方法能够尽量避免噪音特征为半监督情感分类带来的不良影响。实验结果表明,该方法相比于传统的自训练方法及基于随机特征子空间的协同训练方法,获得了更好的分类性能。其次,本文提出了一种基于标签一致性融合的半监督情感分类方法。核心思想是,将多个半监督学习方法标注一致的未标注样本自动标注,并更新标注样本集,过滤掉标注不一致的未标注样本,从而保证了标注集合的质量,降低误标注给半监督学习带来的负面影响。实验结果表明,基于标签一致性融合的半监督情感分类方法有效地降低了未标注样本的误标注率,在分类效果上远远优于单个半监督学习方法。最后,本文提出了一种基于元分类器及样本过滤的半监督情感分类方法。相比于标签一致性融合的半监督情感分类方法,该方法具有更广泛的适应性,在多个半监督学习方法进行集成学习时,同样能够获得非常好的效果。核心思想是训练一层元分类器,利用元分类器对未标注样本进行标注,并过滤掉分类置信度低的未标注样本。实验结果验证了该集成学习方式的有效性,在多个半监督学习方法进行集成学习时,该方法获得了最好的分类效果。