论文部分内容阅读
情绪作为人类与生俱来的特征,在自然语言处理和人工智能研究中扮演着越来越重要的作用,所以情绪计算在认知科学研究中具有积极的应用意义。同时,随着互联网技术的发展,海量的个人情绪观点都融入到了互联网这个大环境里,因此情绪计算和研究也具有紧迫的现实意义。目前,情绪方面的研究主要集中在文本情绪分析和文本情绪预测方向,但对于深层次的文本情绪归因则相对较少。文本情绪归因研究从文本中自动识别导致个体情绪产生和迁移的原因的方法。现有的主要工作可以分为文本情绪归因语料库构建和从文本中提取触发情绪产生原因的方法研究。由于文本情绪归因语料库在标注的过程中需要大量的人工参与,所以缺乏标准的、公开的语料库,这也导致了文本情绪归因的规则提取和模型构建研究的不成熟;并且,由于该研究处于刚刚起步阶段,所以文本情绪归因模型和特征的研究也尚处于起步阶段。本课题研究分为主要分为三个方面:第一,作为文本情绪归因的基础,首先构建基于微博文本的情绪归因语料库,并通过对语料库进行分析,发现文本情绪原因的统计规律。第二,在对语料库的统计分析基础上,结合微博文本的特点,提取了八个微博语义情绪归因规则。增加这些规则后,采用规则优先级算法,系统的宽松准确率提高了26.73%;同时,为了解决规则优先级算法带来的规则冲突,提出使用基于转换的错误驱动学习算法,使得系统的宽松准确率提高了3.16%;第三,进一步利用统计模型结合语言学特征和距离、语法等特征进行自动文本情绪归因,与基于规则的系统相比,系统的宽松准确率进一步提高了7.92%;该研究还利用主题模型提取了情绪认知知识和情绪语义知识特征,相较于基于语言学特征,距离、语法特征的系统,宽松正确率提高了3.05%;本研究主要的贡献为:第一,构建了基于微博文本的情绪归因语料库,其为世界上面向微博领域内规模最大的文本情绪归因语料库,为后期的模型构建提供数据基础和数据统计依据;第二,设计了微博文本情绪归因规则,该规则能够有效的提高系统的正确率,并使用基于规则优先级算法和基于错误驱动学习算法进行文本情绪归因;第三,将文本情绪归因分别看作是分类和序列标注问题,并且结合主题模型提取的情绪语义和认知特征进行文本情绪归因,该部分研究为以后基于情绪认知知识的深入研究提供了参考。