论文部分内容阅读
随着Internet的发展和网络的普及,以文本形式出现的信息越来越多,逐渐成为我们最容易获取也是最为丰富的一种交互资源,因此情感倾向分析也逐渐成为自然语言处理领域中一个新的热点。情感倾向分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究、海量信息的整体倾向性预测四个研究层次。文本情感倾向性分析,就是对说话人的态度(或称观点、情感)进行分析,也就是对文本中的主观性信息进行分析。而词语情感倾向分析是对单独的词语或者实体的极性、强度和上下文模式进行分析。因此词语情感倾向分析是文本情感倾向分析的前提和基础。目前,在国内情感分析方面的研究还比较少,因此本文在这方面的研究具有重要深远的意义。针对目前情感倾向分析用资源的状况,本文具体分析了情感词典的构建方法,通过对比说明词语的情感倾向分析的难点与限制;此外,本文具体介绍了程度副词、否定副词、连词等在情感分析过程中的作用与收集方法;最后介绍了情感语料库的建设现状。针对词语的情感倾向分析问题,本文在情感词典的基础上,引入了X~2统计和朴素贝叶斯分类相结合的词语情感倾向分析方法,实验结果显示它能很好地发掘文本中新出现的情感词;此外,本文提出了利用情感短语模板识别文本中的情感短语,实验结果显示在结合情感词和情感短语后,判断的各项评价指标都有明显的提升。针对文本的情感倾向分析问题,本文对比了传统的文本情感计算方法和文本情感分类方法,突出了后者在文本情感分析任务中的重要角色;针对文本情感分类方法,本文在以情感词和情感短语为目标特征,以信息增益和X~2统计值为特征选择策略,选用了朴素贝叶斯和支持向量机为分类算法,通过对比选用最好的方法,实现了一个基于情感词典的文本情感倾向分析系统,实验结果表明该系统在中文倾向性分析评测语料上可以达到86%的准确率。