论文部分内容阅读
随着互联网的迅猛发展,特别是Web2.0的兴起,越来越多的人们以网络为媒介发表他们对某个事件或事物的意见和评论。意见挖掘得到了广泛地应用,并引起了自然语言处理等相关领域的极大关注,主观性识别和情感分类是意见挖掘中的两个关键问题,其主要任务就是将文本中人们所表达的意见信息从客观性的信息中识别出来,并确定其情感倾向。这两个问题的解决对意见问答系统、信息抽取、和意见文摘等自然语言处理系统都有着极其重要的意义。本文在统计方法和模糊集合论框架下研究汉语句子的主观性识别和情感分类问题。为了降低问题的复杂性,提高系统性能,本文根据汉语句子的特点分析句子中不同粒度层面的主观性及情感倾向,并以它们为基本任务线路,根据不同层次粒度的融合策略解决汉语句子层面的主观性识别和情感分类问题。具体地讲,本文从如下四个方面进行研究:1.主观性识别是意见挖掘中首先要解决的问题之一。面向大规模开放应用,本文提出了一整套汉语句子主观性识别解决方案,包括:(1)在分析汉语主观性表述的基础上,给出了一种基于Chi-square的主观性特征选择方法;(2)针对汉语主观性意见表述与客观事实表述的差异性,引入情感密度概念,提出一种基于情感密度的汉语句子主观性识别方法;(3)在汉语句子的情感密度的基础上,以句子的情感密度区间为特征,描述了一种情感密度和贝叶斯分类器相融合的汉语句子主观性分类方法。实验结果表明,本文提出的汉语句子主客观分类方法具有较强的适应性,能够有效地将文本中的主观性意见表述从客观性事实陈述中分离出来,并取得了较理想的实验结果。2.词语是构成自然语言的基本单位,其主观性是进一步进行短语和句子主观性分析的基础。针对汉语词语主观性存在的兼类问题和强度问题,本文在计算词语的主观性权重的基础上,提出一种对数线性模型和模糊集合相结合的汉语词语主观性强度学习方法。其基本思想是先采用对数线性模型对语料中的候选主观性词语进行主观性权重预测,然后再在模糊集合的框架下融合词语的主观性权重相关信息,构造词语主观性强度的模糊集合及对应的隶属函数并以此判别词语的主观性强度类别,最后应用于汉语句子的主观性识别之中。实验结果表明,由于引入词语的主观性强度类别,本文方法取得了良好的效果。3.引入汉语词语的结构信息有助于汉语词语的情感倾向预测。针对汉语词语情感倾向难于预测的问题,本文在深入分析了汉语词语结构与词语情感倾向的规律的基础上,针对其中较难分辨的未登录词极性预测问题,将词语中语素等结构特征有效结合,提出了一种统计方法框架下的基于语素的汉语词语情感倾向自动预测方法。并在讨论词汇层面极性预测的基础上,提出了一种基于规则的短语极性计算方法,最后在词语和短语的极性计算基础上,给出了基于阈值法的句子情感分类方法。实验结果表明,与其他方法相比较由于引入句子中多层面的语言信息,本文方法较好的解决了汉语句子情感分类问题。4.本文最后主要研究基于多粒度融合的汉语句子情感分类方法。在深入研究了语素、词语和短语层面的主观性及情感倾向的基础上,针对情感句子表述的隐晦性和模糊性,并结合汉语本身的特点,将上下文的多粒度信息融合并引入到整个句子的情感分类中,提出了一个基于多粒度融合与模糊集合相结合的汉语句子分类方法。实验结果表明,与传统的情感分类方法相比,本文提出的基于模糊集合的多粒度融合的汉语句子情感分类方法,从细粒度到粗粒度较精确的识别了汉语句子中各层次的情感强度及情感倾向,因此明显地提高汉语句子级别的情感分类的精确率和召回率。