论文部分内容阅读
情感文本分类涉及文本内容理解、模式分类方法等若干自然语言理解和模式识别的问题。开展该技术的研究,不仅可以推动自然语言理解相关技术的研究,而且可以丰富模式识别和人工智能理论研究的内容,具有重要的学术价值和理论意义。
目前,人们越来越习惯于在网络上表达自己的观点和情感。于是,在网上出现了大量的带有情感信息的文本,这些情感文本以商品评论、论坛评论和博客等多种形式存在。面对网上这些越来越多表达情感信息的文本,传统的基于主题的文本分类系统已经不能满足人们的需求,迫切需要对这些情感文本进行研究和分析。因此,开展情感文本分类方法研究同样具有重要的应用价值。
本论文的主要贡献归纳如下:
(1)在对文本分类中常用的6种特征提取方法进行理论分析的基础上,提出了两个特征评价基准,分别是文档频率基准和类文档比率基准,在此基础上提出了一种叫做带权重的文档频率和比率方法的新特征提取方法,并对这些特征提取方法在情感文本分类任务中的应用方法进行了深入研究。通过大量的实验证明,本文提出的新方法能够在不同领域内都能取得很好的分类效果,从而克服了已有方法在领域方面的依赖性问题。
(2)实现了多分类器组合方法中两种基本融合规则(乘法规则和加法规则)的理论推导。这一推导将它们融合到Bayes理论框架下,并分别给出两种规则成立所需要的独立性条件。在此基础上,本文实现了面向情感文本分类的组合分类器系统,用以融合不同的特征子集。实验结果表明,这两种融合规则有效地提高了情感文本的分类效果。
(3)提出了多领域的情感文本分类问题,并针对这一问题给出两种不同的求解方法。情感分类是一个领域相关的问题。在设计实用的情感文本分类系统时,一般需要搜集多个领域的训练语料以保证系统能够在多个领域都能提供良好的分类效果。针对这一问题,提出了在特征层和分类器层两个层面分别进行特征项集合和分类结果的融合,以达到同时利用来自多领域的训练语料构建分类器的目的。实验结果表明,相对于利用单领域语料分别训练,这两种融合方法都能充分利用所有领域的语料,大大地提高了整体分类的效果。
(4)针对情感文本分类方法的领域适应问题,提出了解决多领域适应问题的组合分类器方法。论文重点分析了多个源领域参与适应学习的方法,提出了一种在半监督情况下的多领域适应方法,叫做驱动集成的Sdf-training方法。实验结果表明,该方法对于多领域适应的分类效果优于单领域适应的分类效果。