论文部分内容阅读
情感是人际交流中重要的组成部分,是态度的一部分,是当代认知科学领域研究的热点问题。目前为止,面对海量数据,以人工的方式进行情感分析已经不能满足需求,迫切需要计算机能够代替人处理文本、图像、声音等蕴含的情感信息,即通过计算机系统实现情感计算。随着国家和企业发展的相关需求,情感计算也逐渐成为一个跨领域跨学科的热门研究领域。情感计算的研究目标就是赋予计算机和人一样能够主动观察,详细分析,深刻理解,流畅表达,深度挖掘各种情感的能力。本体作为一个哲学名词,指的是事物本身,作为一个计算机科学的名词,本体是一种形式化的概念框架,包括概念和词汇标识等,是针对领域的明确详细的说明。在情感计算领域,情感词汇本体就是对语言系统中包含情感的词汇进行明确详细的说明。情感词汇本体可以定义情感的结构,帮助实现基于情感的互动,因此情感本体的构建及扩充与应用是情感计算基本且重要的研究工作。本文基于大连理工大学信息检索实验室发布的中文情感词汇本体,在两个方面对情感词汇本体进行扩充,分别是建立多情感歧义词常识库和二元情感搭配常识库,对情感词汇本体的不足之处进行细致的分析并进行有效的完善。建立多情感歧义词常识库。在汉语语言体系中,较多词语具有个不同的释义,因为不同的释义可能表达不同的情感,会导致多情感歧义词的出现。本文将根据在不同的语境下,同一个词语却表现出不同情感类别的词语称作多情感歧义词。首先获取多情感歧义词,即根据中文情感词汇本体库和同义词词林确定候选词语,再通过人工标注确定最终的多情感歧义词集合。由于存在多情感歧义词,需要根据不同的上下文或表述方式对多情感歧义词进行消歧,才能明确多情感歧义词表达的情感类别,从而进行下一步的情感分析。本文针对多情感歧义词在情感分析中难以明确情感类别,需要进行消歧这一问题,建立多情感歧义词常识库。建立二元情感搭配常识库。在汉语语言体系中,存在这种现象:当词语作为最基本的单元时,并不具有情感,通过两个词语的搭配使用反而产生情感。本文针对中文表达的这种现象,基于中文情语料库中的语料,抽取二元常识。对抽取的二元常识,再根据情感语料确定二元常识的情感类别。最后,在中文情感词汇本体和多情感歧义词常识库、二元情感搭配常识库的基础上,进行新闻情感关键句的抽取与极性判别。