论文部分内容阅读
情感计算是人工智能的一个热门的研究领域,它的目标是使计算机拥有情感,能够像人一样自然亲切的交流。随着Internet的发展,以文本形式出现的信息越来越多,逐渐成为我们最容易获取也是最为丰富的一种交互资源,然而国内文本情感分析方面的研究较少。本文首先构建情感识别所需的语义资源,情感词汇本体库。根据目前情感分类发展的现状,确定情感分类体系,在此基础上综合现有的各种情感词汇资源构造情感词汇本体。在本体的知识获取过程中采用手工分类和自动获取相结合的方法填充词汇本体的框架,详细描述了词汇的情感类别、强度和极性等,并进一步统计了情感词汇的分布情况。在资源建设的基础上,为了减轻资源建设的人工劳动量,本文提出了基于CRF的情感词汇自动获取方法。将情感词汇的词汇自身规律,上下文规律,以及这些规律之间的搭配与机器学习方法相结合,实现情感词汇的自动获取。并且根据实验结果,分析各种规律对于情感词汇自动获取的作用,从而寻找出最佳的特征集用于情感词汇的自动获取。实验最后对结果进行了进一步的错误分析,找出了导致错误发生的主要原因。在情感词汇中,存在词汇的多情感现象。我们把在不同的上下文中,表达不同情感的词汇称为多情感词汇。多情感词汇的获取采用了自动获取和人工确认相结合的方法。在自动获取部分,使用了《同义词词林》确定多义词,并提出了大多数多情感词汇是多义词的假设。多情感词汇的获取及描述还参考了情感词汇本体库中的相关信息。在人工确认部分,指出了多情感词汇和含有多个情感的词汇之间的区别,为词汇的情感消歧指明了目标。由于多情感词汇的存在,那么就需要对多情感词汇,在特定的上下文中,进行词汇的情感消歧。根据词汇的情感消歧和词义消歧的相似性以及差异性,在现有的各种词义消歧的方法中,选用贝叶斯模型,用于词汇的情感消歧。同时还做了3个实验——基于常用情感的词汇情感消歧、基于词性的词汇情感消歧,基于词性及情感频率的词汇情感消歧。对这4个实验的消歧结果的比较分析,表明了基于贝叶斯模型的词汇情感消歧的有效性。