基于半监督集成学习的情感分类方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:eight92
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅速发展,网络上出现了越来越多包含着巨大利用价值的评价文本,如何自动处理这些主观文本显得愈发重要。情感分析正是在这样的背景下产生并取得迅猛发展的一个研究方向。其中,文本情感分类是情感分析研究中最广泛的一个基本任务。情感分类中,现有的研究主要致力于提升监督学习的效果。然而,监督学习往往需要大量的标注样本,而人工标注这些样本非常耗时耗力。因此,在少量标注样本的基础上,充分利用大量未标注样本的半监督情感分类方法受到越来越广泛的关注。其中,半监督集成学习方法上的研究还十分缺乏。本文主要针对情感分类中的半监督集成学习方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出一种基于随机特征子空间自训练的半监督情感分类方法。核心思想是在标注样本基础上,利用随机特征子空间训练多个子分类器,并采用最大置信度的集成方式,选择置信度高的子分类器做分类决策。该方法能够尽量避免噪音特征为半监督情感分类带来的不良影响。实验结果表明,该方法相比于传统的自训练方法及基于随机特征子空间的协同训练方法,获得了更好的分类性能。其次,本文提出了一种基于标签一致性融合的半监督情感分类方法。核心思想是,将多个半监督学习方法标注一致的未标注样本自动标注,并更新标注样本集,过滤掉标注不一致的未标注样本,从而保证了标注集合的质量,降低误标注给半监督学习带来的负面影响。实验结果表明,基于标签一致性融合的半监督情感分类方法有效地降低了未标注样本的误标注率,在分类效果上远远优于单个半监督学习方法。最后,本文提出了一种基于元分类器及样本过滤的半监督情感分类方法。相比于标签一致性融合的半监督情感分类方法,该方法具有更广泛的适应性,在多个半监督学习方法进行集成学习时,同样能够获得非常好的效果。核心思想是训练一层元分类器,利用元分类器对未标注样本进行标注,并过滤掉分类置信度低的未标注样本。实验结果验证了该集成学习方式的有效性,在多个半监督学习方法进行集成学习时,该方法获得了最好的分类效果。
其他文献
随着互联网的迅速发展,面对这样一个全球最大的信息资源宝库,搜索引擎为人们提供了获取信息的入口,得到了极大的流行。但由于Web多元化信息的指数级增长和人们需求的多样化,
随着网络技术的快速发展,WEB服务已经成为网络互操作最合理的解决方案。WEB服务改变了传统的WEB应用模式,通过标准的接口、完善的服务描述以及WEB服务的平台无关性等使得WEB
目前,植入式电子设备的广泛应用,给医疗行业在诊断治疗疾病方面带来了空前的进步。之前,很难治愈甚至无法治愈的疾病,因为植入式电子设备的广泛使用而被攻破。为了保证植入式
BP(Back Propagation)神经网络是目前最重要的神经网络之一,其结构简单、工作时状态稳定、并且易于硬件实现,被广泛应用于模式识别、分类预测、系统仿真和图像处理等诸多领域
云存储服务作为云计算的重要内容,是解决海量用户访问海量数据的关键技术。个人云存储作为云存储的典型应用之一,不仅为用户提供了基本的数据存储功能,还提供了文件多端同步
随着信息价值的不断提高、网络的使用日益广泛,信息产品受到的安全威胁日益加大,信息安全在当前这个信息社会中扮演着关键的角色。由此衍生的另一个领域一一信息安全测评也随
无线传感器网络(WSN, Wireless Sensor Networks)是计算机科学技术中一个新兴的研究领域,它融合了传感器、微机电子系统(MEMS)、嵌入式和无线通信等当今众多热门技术,具有十
遥感图像融合技术是将不同类型传感器获取的同一地区的图像数据和信息,采用一定的算法将各图像数据中所含的信息优势或互补性有机结合起来,得到一幅满足给定要求的包含信息更加丰富的图像。通过图像融合技术,可以提高图像的质量,从而更适合于人类视觉感知或计算机后续的处理过程。本文将第二代Curvelet变换引入图像融合领域,能够更好的提取原始图像的特征,为融合图像提供更多的信息。本文的主要研究工作如下:1)对目
目前,随着信息化建设飞速发展,企业各部门都建立了自己的信息管理系统。但是这些系统通常采用异构数据库并运行在不同平台之上,造成了企业的信息孤岛。随着企业推行信息一体化,如
学位