论文部分内容阅读
情感分析的主要任务为对文本中的观点进行分析,并判断其情感倾向。网络文本的情感分析任务近年来得到了学者、企业甚至政府的极大关注。本文从词汇和篇章两个角度切入,研究了网络文本中情感词表的自动构建方法以及句际关系在情感分析中的应用。 从词汇角度而言,情感词表是情感分析的基础。在新词频发的网络环境下,完备的情感词表对网络文本的情感分析具有非常大的作用。第2章提出了情感词抽取器和极性预测器,无监督地从未分词未标注的微博语料中抽取情感词并判断其极性。其中,情感词抽取器采用基于模式的抽取方法,充分利用了汉语中的语法规则和语言现象;极性预测器采用基于表情符号和隐层极性信息的方法,为LDA模型赋予了新的语义。实验证明,情感词抽取器和极性分析器能够有效地进行情感词的抽取和极性预测;且实验证明,自动构建的网络情感词表能够有效地提升句子级别的情感分析。 从篇章角度而言,文档所表达的情感与文本的句际关系结构密切相关。第3章和第4章探索了句际关系在情感分析中的应用。 第3章利用句际关系,使用基于加权的方法,提升情感分析的性能。本章将文档切分成具有不同句际关系的文本语段,使用显式关联词来预测扁平结构的句际关系,自动训练并获得表征不同句际关系重要性的权重,进而提升情感分析的性能。本章还发现,转折、因果、条件、总括是对情感分析最有促进作用的句际关系,“不过”、“虽然”、“但”、“同时”、“总的来说”、“但是”是对情感分析最有促进作用的关联词。 第4章利用句际关系,使用基于加权和基于约束的方法提升情感分析器的性能。与第3章不同,本章使用的是层级句际结构,它是由人工进行标注的,准确的、完整的层级句际结构。实验证明,层级句际关系结构对文本情感分析具有促进作用。此外,需要重视引导关系所引导的话题转换对情感分析的影响。 本文的主要贡献有如下两点:(1)我们以完全无监督的方法构建了网络情感词典,该词典中包含了大量的新词新义,对网络文本的情感分析有促进作用。(2)我们构建了相对完善的中文句际关系体系,初步证明了句际关系对中文情感分析的促进作用。