论文部分内容阅读
随着电子商务及社会媒体的快速发展,用户越来越习惯于在互联网上针对商品、新闻事件、公众人物等各种对象及主题发表评论。面对不断涌现的海量Web评论文本,传统的人工方式难以对其中的观点信息进行全面有效的分析利用,因此,近年来文本情感分析研究得到了广泛关注。作为文本情感分析中的一项核心任务,文本情感分类旨在对带有情感色彩的文本进行情感倾向性分类,具有重要的学术研究价值及广泛的应用前景,同时也面临诸多挑战性问题。本文围绕文本情感分类研究所面临的数据稀疏性、标注样本获取困难、情感资源的不平衡性等问题,开展了一系列研究。主要工作及贡献包括以下几点:①提出了基于特征扩展与集成学习的句子级情感分类方法。针对句子级评论文本中的数据稀疏性问题,本文在大规模无标注数据集上训练主题模型和词向量表示模型。通过主题模型来获得主题特征,通过词向量表示模型来获得相关词特征。然后分别利用这两种特征来对文本进行特征扩展,并相应训练分类器。在此基础上,本文进一步利用集成学习方法将不同分类器的分类结果进行集成,得到最终分类器。实验结果表明:基于特征扩展与集成学习的情感分类方法中,主题特征及相关词特征均能有效地对文本进行特征扩展,缓解数据稀疏性问题。最终分类器由于集成了两类不同分类器的分类结果,能综合利用主题特征及相关词特征的语义信息,进一步提升分类性能。②提出了基于情感词典与机器学习的无监督情感分类框架。针对有监督情感分类方法中标注样本获取困难的问题,本文提出一种不依赖于人工标注语料的无监督情感分类框架。该框架分两阶段来进行情感分类:第一阶段利用情感词典资源从无标注语料中挑选置信度高的样本来构成伪标注训练集;第二阶段则使用半监督学习方法,利用伪标注训练集及无标注数据来学习分类器,获得分类结果。在四个公共数据集上的实验结果表明:无监督情感分类框架通过对情感词典及语料的有效应用,能够有效改善分类性能;进一步,本文还比较了各种半监督学习算法在分类框架中的分类效果,发现自训练方法具有分类性能好、适应性强等特点,适用于该情感分类框架。③提出了基于数据集划分与自训练的无监督文档情感分类方法。在第②项研究工作的基础上,针对自训练法在迭代过程中所累积的样本噪声导致分类性能下降的问题,本文提出一种基于数据集划分的改进自训练法。该方法在数据子集上学习分类器,并在迭代过程中由两个分类器对无标注样本的分类结果进行一致性检验。在四个公共数据集上的实验结果表明:基于改进自训练分类器的无监督情感分类方法能有效地降低错误标记样本带来的影响,相比其他一系列基准方法有显著的性能提升,在部分数据集上的分类性能甚至超出了有监督学习方法的分类性能。④提出了基于随机子空间与协同训练的跨语言情感分类方法。针对情感资源的不平衡性问题,本文研究跨语言情感分类问题,以充分利用不同语言的资源。在利用语言学知识的基础上,提出了一种基于词性组合的随机子空间法,并将其应用于中文及英文这两种语言视图上,然后将得到的多个子视图应用于协同训练方法中来进行跨语言情感分类。实验结果表明:将基于词性组合的随机子空间法应用于协同训练框架中,由于得到更多冗余视图,能有效地利用不同语言中的标注语料及无标注语料,从而显著地提升跨语言情感分类性能。