中文文本情感倾向性分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yuggmacc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,用户及其发表的评论成爆炸式增长。这些评论包含大量的信息,企业需要用户对其产品或服务的评价来改善质量并提高产品和服务销量;政府也需要了解大多数群众对某项政策的认识和反馈,从而做出符合大多数人的利益的民主决策等多种情况。如何处理这些消息来获得想要的知识,在近年来得到了广泛地关注和研究。其中情感分类就是随之兴起的一个研究领域,可以应用到信息过滤、产品推荐和用户兴趣发掘等方面。情感分类结果一般分为正面和负面两种,对它的研究既有机器学习的方法,又有语义计算的研究,同时也有综合两种方法的研究,本文属于后者。本文以已有的情感词典和情感评论语料为基础,计算出情感词典中词的极性强度,再利用改进的PMI统计方法与基于词性选择的方法来扩充已有的情感词典,然后根据文本频率、卡方统计和将两者相结合的方法选取得到的特征来构建一个初始的朴素贝叶斯分类器,最后利用扩充后的情感词典对朴素贝叶斯分类器进行属性加权来提高分类的效果。由于单分类器性能的提升也遇到瓶颈,很难得到明显的提升并且很难适应所有的情况。本文采用多分类器组合来取代最优单分类器,即利用了多个分类器的分类信息,来实现当前问题的最优解。在训练数据集上构造属性加权的朴素贝叶斯分类、决策树和KNN分类器,并利用回代法来得到它们的分类精度,用加权的投票组合方法(权值为各分类器的回代分类精度)来预测测试实例的类别,最终达到提高分类效果和适应多种语料能力的目的。
其他文献
随着信息技术和网络通信技术的发展,即时通信系统的应用也得到了飞速的发展,比较典型的有QQ、MSN,它们的出现使得在以网络为载体的新世纪出现了一种全新的交流方式,它极大地
群体智能算法的产生摆脱了传统优化技术当前所面临的困境,为求解日益规模化、复杂化、约束强的优化问题提供了新的思路,同时也解决了工程、化工、图像处理等领域的诸多实际问题
目前基于UML模型的软件测试是面向对象软件测试技术研究的重要方向。UML是一种流行的面向对象建模语言,其活动图模型具有描述系统工作流程和并行活动的能力,是集成测试和系统测
随着计算机信息处理技术、模式识别技术、图像处理技术以及网络技术等在交通运输管理中的应用与发展,智能交通系统(Intelligent Transportation System,ITS)己成为交通运输领
随着城市化进程的不断加快,我国逐渐从一个农业大国转变成以城市人口为主体的现代化国家。伴随着城市化进程,近年来各种各样的公众性场所如电影院、体育馆和大型展览馆等也越
近几年来,人与计算机的交互活动越来越成为人们日常生活的一个重要组成部分,特别是研究符合人际交流习惯的新颖人机交互(Human Computer Interaction, HCI)异常活跃,人们希望能够
目前在国内市场上占主导地位的是国外的ERP系统,但是由于中国特有的国情,这些系统在应用上狭隘性很大。对于国内企业而言,企业信息化管理需求非常迫切,但是由于自身的特点很
在生产和作业场地中出现的事故很多都与工作人员违章违规行为有关。在大多数生产作业场地中,不正确佩戴安全帽是最常见的违规行为。因此采用具备实时性、准确性和预见性现代
无线传感器网络(Wireless Sensor Network, WSN)低功耗、低成本、自组织与分布式等特点使其成为了信息获取的重要技术,然而资源受限使得对无线传感器网络的研究面临着巨大的
近来,信息泄漏成为了网络社会中非常严峻的问题。调查显示,近50%的信息泄漏问题是由纸媒体(印刷文本)泄漏所导致的。信息安全问题日益突出,信息安全在互联网环境下面临了很多新的