论文部分内容阅读
本文对中文情感分类器的相关理论与技术方法进行相对全面的梳理,并基于酒店领域进行情感词典的组构,在此基础上应用支持向量机方法构建相关情感分类器,并用情感词典的情感强度值算法构建分类器进行对比实验。主要工作如下:(1)使用对语料库挖掘的统计和机器学习相结合的科学方法,并在知网获取的相关基础词典的基础上组构一个关于酒店领域的专用情感词典。对获取的知网的基础词典在网络用词和酒店领域语料方面进行扩充,形成一个相对完整的酒店领域情感词典。与此同时,本文也参考已有的修饰词典,作为情感词典中词的情感倾向性的修正。并对上述两种词典中的词汇进行处理后赋予其相应的情感强度值。(2)基于情感词典与支持向量机理论构建文本分类器和基于情感词典情感强度值构建分类器。本文使用构建的支持向量机文本情感分类器对酒店领域的评论性文本进行情感分类,将评论性文本分为正面情感类别和负面情感类别。同时使用构建的情感词典情感强度值分类器对评论性文本进行情感分类,将评论性文本分为正面、负面和中性情感类别。(3)对上述两种分类器进行实验与对比研究。在对文本分类的过程中,不同的特征选择方式会对文本的分类效果产生一定的影响,选取文档频率、χ2检验、本文酒店领域情感词典与知网基础词典特征选择方式进行对比实验,对四种不同的特征选择方式的实验结果进行分析与比较,实验结果证明酒店领域情感词典构建的支持向量机分类器在召回率、准确率和微平均等三种指标上具有一定的优越性。对两种不同的文本情感分类器在酒店领域评论性文本数据集上进行实验,发现其准确率差异不大,初步验证了两种方法的可行性。