论文部分内容阅读
文本的情感倾向性研究是当前计算机领域、智能信息领域、自然语言处理领域中比较活跃的一个分支,它通过对文本中的评论对象的情感倾向进行分析,可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的。文本情感倾向性分析被广泛地应用于信息检索、信息过滤、情感识别等领域。文本按照颗粒度的大小可以分为三个级别:词语、句子、篇章。对这三个级别的文本进行情感倾向分析所使用的方法既有联系又有区别,本文是从最基本也是最主要的词语着手进行研究,在词语情感倾向研究的基础上完成句子和篇章级的情感倾向分析和研究。本文的主要研究工作和成果有:(1)词语的情感倾向性分析。本文对基于知网的词语语义相似度算法进行了改进,通过测试,改进后的算法提高了知网情感字典中的词语语义倾向判别的准确率。(2)句子短语的情感倾向性分析。本文根据自然语言处理中的句子词语与词语之间的依存关系,来提取句子短语中的修饰词和情感词,然后通过SO-PMI算法来计算句子的情感倾向的极性和情感强度。测试中,对情感基准词的提取采用了一种新的算法,使基准词涵盖的范围更加广泛,提取后的情感基准词不仅适用于一般领域还适用于特定的领域。(3)文本的情感倾向分析。本文使用文本分类的方法对文本的情感倾向进行分析,测试中将提取后的情感词作为文本特征,使用了SVM分类器实现了对文本的褒贬分类。