论文部分内容阅读
文本情感倾向分析是指通过计算语言学的相关方法,抽取和分析文本的主观倾向性信息,包括判断情感极性,以及从中抽取出于情感,倾向性论述相关的各要素,这些要素包括文本的评价对象,文本的倾向性(包括褒义,贬义,中立等),以及文本在该情感极性上的强度等。随着互联网的普及,网络上的评论性文本越来越多,人们急需将这些文本进行自动的分析,因此对文本倾向性分析的研究成为互联网领域的研究热点。句子级的中文文本情感倾向性分析是其中的一个非常基础并且重要研究课题。本文在认真分析研究有关资料,并对一些具有代表性的情感倾向性分析算法研究的基础上,探讨了一般情感倾向性分析常用方法的原理和不足之处,以及在情感倾向性分析过程中遇到的一些问题,针对这些问题提出了相应的解决办法并通过实验与其它算法进行了比较。本文的内容涉及下面4个方面:1、提出了训练语料规模失衡的情况下的如何保证算法对语料平衡要求的处理方法;从而解决了训练语料规模失衡对分类效果带来的负面影响。2、通过对情感词置信度的评价算法研究,提出了对大规模情感词词典的拆分方法,降低了置信度较低的情感词对情感倾向性分析带来的负面影响,并通过实验验证了该方法的有效性。3、通过对训练语料的深入研究,提出了建立规则集的具体算法,从而解决了如何正确分析部分不含有情感词或者情感词强度较弱语料的情感倾向性问题。4、提出了多层次分类算法,解决了单一算法在准确率和召回率上不能兼顾的问题。在多层次分类算法中,首先对主观句进行中性和极性的二分类,然后对极性文本进行褒贬二分类。在褒贬二分类过程中使用不同的分类策略,分层处理,逐层推进,实验表明该算法在召回率和准确率上都有所提高。