论文部分内容阅读
文本情感分析近年来已成为自然语言处理领域重要的研究方向之一,它是对信息发布者的态度、观点、情感进行分析,可以广泛应用于产品评价、舆情监测等领域。传统的新闻更多地开始在互联网上抵达大众,于此同时,网民们可以通过微博、博客等多种方式表达自己的观点,相互交流意见看法。本文基于这些网络文本进行了情感新词发现及篇章情感分析方面的研究,并在中文倾向性分析评测提供的语料上做了实验,实验结果表明了本文方法的有效性。本文的主要工作有:(1)从情感新词传播的重要媒介中文微博中抽取情感新词。本文以中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等对中文微博数据情感新词发现效果有限。为此,利用基于上下文的情感新词发现方法CNG(Context N-Gram),以N-Gram为特征,刻画情感词的用词环境和用词模式,以现有已知情感词为训练数据构造SVM分类器,对候选情感词进行分类。实验表明,该方法优于传统的基于共现的方法,同时还发现中文情感词通常会以名词词性出现,而基于共现的方法无法有效区分该类情感词,这是造成其效果有限的主要原因。(2)篇章情感关键句的抽取与判定。篇章的整体情感倾向在一定程度上依赖于其中情感极性突出的关键句,对这些情感关键句的抽取和判定直接影响了篇章的情感分析结果。本文结合使用传统的机器学习方法支持向量机SVM(Support Vector Machine)和目前广泛使用的深度学习方法递归神经网络RNN(Recursive Neural Network),在句子、篇章两个级别上进行特征抽取,在以新闻和博客为语料的基础上分别训练句子分类器和篇章分类器,综合考虑两者的分类结果之后得出最终的情感关键句。通过实验发现,新闻的客观性一定程度上影响的抽取效果,但通过抽取判定情感关键句来掌握篇章情感信息为文本情感分析提供了新思路。