论文部分内容阅读
人们对事物的情感倾向是两面性的,例如正面和负面,褒义和贬义等。因此通常认为文本的情感倾向分类是一个两分类问题,也就是把文本的情感分成正面或者反面。文本情感倾向分类是文本分类领域一个比较新颖的研究方向,具有很大的商业价值,可以应用到舆论分析、信息过滤、产品评价、产品推荐、智能化搜索和用户兴趣发掘等方面。本文以朴素贝叶斯方法构建文本情感分类器为主线,研究了文本情感倾向分类中情感语料采集和标注、情感词典构建、特征选择方法、特征权值与向量表示等关键问题,提出了一些新的观点和方法,并通过实验进行了验证。主要的研究工作和结果有:1、利用DOM对中文宾馆评论网页进行分析,设计了对宾馆评论文本自动采集的算法,用这种算法从互联网上采集了700万字的中文宾馆评论作为语料库。该语料库来源可靠,情感特征明显,对研究互联网评论文本的情感分类问题具有一定的意义。并对其进行了中文分词和情感标注处理。2、提出利用PMI算法,选用基础情感词典作为种子词,在中文宾馆评论语料库上构建宾馆评论领域情感词典的方法。并用这种方法构建了一个宾馆评论情感词典,基于该词典作为特征选择对宾馆评论进行情感分类效果比较好。3、研究了利用朴素贝叶斯理论构建文本情感分类器的方法,以及先验概率和后验概率的估计问题,提出了一种新的后验概率Laplace转换的参数设置,这种设置方法对朴素贝叶斯分类器的分类性能有很大的提升。并且提出了一种基于情感词典作为特征选择的文本情感分类方法,这种方法具有分类速度快、分类效果好,鲁棒性等特点,比使用CHI统计进行特征选择的朴素贝叶斯文本情感分类器和基于情感倾向权值构建的文本情感分类器的分类效果都要好,可以对大量文本进行情感分类应用。4、设计和实现了一个中文文本情感分类实验系统,该系统具有界面友好、速度快和稳定性高等特点。具有中文分词、特征权值计算、CHI特征选择、情感词典构建、朴素贝叶斯情感分类等文本情感分类的主要功能。