论文部分内容阅读
随着互联网的不断发展,用户及其发表的评论成爆炸式增长。这些评论包含大量的信息,企业需要用户对其产品或服务的评价来改善质量并提高产品和服务销量;政府也需要了解大多数群众对某项政策的认识和反馈,从而做出符合大多数人的利益的民主决策等多种情况。如何处理这些消息来获得想要的知识,在近年来得到了广泛地关注和研究。其中情感分类就是随之兴起的一个研究领域,可以应用到信息过滤、产品推荐和用户兴趣发掘等方面。情感分类结果一般分为正面和负面两种,对它的研究既有机器学习的方法,又有语义计算的研究,同时也有综合两种方法的研究,本文属于后者。本文以已有的情感词典和情感评论语料为基础,计算出情感词典中词的极性强度,再利用改进的PMI统计方法与基于词性选择的方法来扩充已有的情感词典,然后根据文本频率、卡方统计和将两者相结合的方法选取得到的特征来构建一个初始的朴素贝叶斯分类器,最后利用扩充后的情感词典对朴素贝叶斯分类器进行属性加权来提高分类的效果。由于单分类器性能的提升也遇到瓶颈,很难得到明显的提升并且很难适应所有的情况。本文采用多分类器组合来取代最优单分类器,即利用了多个分类器的分类信息,来实现当前问题的最优解。在训练数据集上构造属性加权的朴素贝叶斯分类、决策树和KNN分类器,并利用回代法来得到它们的分类精度,用加权的投票组合方法(权值为各分类器的回代分类精度)来预测测试实例的类别,最终达到提高分类效果和适应多种语料能力的目的。