论文部分内容阅读
近年来,舆情分析作为一个热点研究课题被很多学者关注,作为其中的一个重要问题:文本情感分析,自然也成为研究的重点,被很多专家学者不断挖掘。随着人们参与互联网的热情不断高涨,特别是微博、微信等新媒体的快速发展及广泛普及,广大网民从被动的信息接受者变成了信息的产生者,同时随着自然语言分析技术的不断创新及发展,对微博文本这类主观性文本的情感分析也得到了普遍的应用。传统的情感分析主要是基于文章或者句子级,完成相应的情感分析,目前在舆情监控、股评分析领域得到部分应用,并且体现出了一定的实用价值,但是随着互联网的发展,用户表达的口语化,文本不规范化的日趋明显,传统的情感计算方法已经无法胜任现在的任务,因此,本文给出了基于依存句法的细粒度情感计算方法来解决这一难题,通过新的方法和思路,将句子级情感计算的准确率提升一步。本文对基于依存句法的细粒度情感计算任务进行了深入而细致的研究,首先构建了大规模的细粒度情感词典,包含23128个情感词及对应的情感值;同时对语句中的修饰、反转结构构建了修饰情感词典,以及构建了包含591个表情符号的微博表情词典。结合How Net,使用基于同义词林的PMI算法,给出语义角度的词语极性计算方法,然后对句子进行依存句法分析,结合词语间语义依存关系,设计了24种情感短语匹配规则,最后通过细粒度情感计算得到句子的情感值。通过与两种基于句法分析的情感算法实验结果对比,本文算法在召回率和正确率两项关键指标上,均达到了90%以上,优于另两种算法。最后本文设计了一个基于依存句法的细粒度情感计算原型系统。本论文重点研究了以下几部分:1、构建大规模的细粒度情感词典。首先构建了基础情感词典,经过多轮误差校对,人工标注了23128个情感词,并按照极性强弱给出相应的情感标度,为了处理句子中反转、修饰结构等对句子情感极性的影响,构建了相应的修饰词库,同时给出了微博表情词典,最后针对情感词典不能识别的情感词,结合How Net知识库,通过基于同义词林的PMI算法得到情感词极性,且补充到情感词典中。2、句子情感短语抽取。通过依存句法分析,找到句子的句法结构,分析词语间的依存关系,对程度修饰、否定修饰、动态修饰、反转结构等情感短语结构进行讨论和分析,从而归纳出24种情感短语抽取模板,并给出了各个抽取模板的详细说明。3、句子级细粒度情感计算。通过设定的情感短语模板,对句子进行模板匹配,结合大规模的词典资源,分别给出不同模板计算规则,完成情感短语的情感分析,最后考虑到特定句型对情感分析的影响,设定不同的权值,从而得到句子的细粒度计算结果。4、构建了细粒度情感计算原型系统。系统包括文本预处理、情感短语抽取、情感计算、界面展示四个模块,系统提供第三方调用接口,可以满足微博文本的细粒度情感计算需求。