论文部分内容阅读
近几年来,随着Internet的发展,人们能够方便的获得大量的信息。然而面对海量的信息资源,怎样快速有效的获取并使用其中有效的信息成为人们关注的问题。文本情感倾向性分析能够帮助人们从海量的信息中识别出文本的情感信息,以便对某事做出正确的决策。目前,文本情感分类已成为信息检索和自然语言处理领域中重要的研究方向,广泛应用于信息过滤、网络监管等信息安全领域。本文对基于情感词的中文文本情感倾向分类的情感词识别、情感倾向判断以s及情感权值计算进行了深入研究。本文的主要研究工作如下: (1)基于中文词语语义相似度方式,提出一种中文情感词词典构建方法。利用该方法构建了两类情感词典:基础情感词词典和修饰词词典,为中文文本情感特征选择以及情感权重计算提供依据。基础情感词词典是以HowNet情感词语集为基础,对每一个基础情感词赋予一个[-1,1]的数值作为情感倾向权重。修饰词词典包括程度词词典、否定词词典以及连词词典。基础情感词典和连词词典用来识别中文情感词;程度词词典和否定词词典用于调整上下文环境中情感词的动态情感倾向。 (2)在情感词的识别方面,提出了一种基于多重情感词典的情感词识别算法。算法思想如下:a、利用基础情感词词典识别情感词;b、利用连词词典扩展文本中与基础情感词连用的情感词语;c、以已选择的情感词作为情感种子词,利用词语距离算法进一步抽取未知的情感词。并在该算法的基础上,以基础情感词词典权值为依据,计算语料库中情感词的静态特征权值。通过实验发现,该方法要优于SO-PMI、HM算法。 (3)在情感词静态特征的基础上,提出一种基于上下文环境的动态特征识别与权值计算方法。首先使用句法分析,找出修饰词与情感词之间的关系,如果是状中关系,则利用程度词词典和否定词词典计算出该情感词的语义情感倾向值。实验表明,基于情感词的上下文动态特征的情感分类性能明显优于情感词的静态特征的情感分类。最后设计了一个文本情感分类实验系统。