集成异种分类器分类稀有类

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ncla02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题的专用算法不多。本文主要研究集成异种分类器分类稀有类问题。由于数据的高度倾斜,很多传统分类算法在稀有类上效果不佳。本文使用一种新的集成方法,称为EDKC(Ensemble of Different Kind of Classifiers),用来分类稀有类。EDKC集成不同的分类器形成组合分类器,并且通过加权投票表决对未知样本进行分类。在UCI机器学习数据库的多个稀有类数据集上的实验结果表明,EDKC对稀有类分类不仅具有较高的F-度量值,能达到目标类召回率和精度的平衡,而且能够取得很高的分类准确率。集成学习方法是从机器学习领域逐渐发展起来的用于提升弱分类器分类准确率的技术,被认为是近十年来提出的最有效的学习思想之一。与单个算法相比,集成学习不容易出现过适应现象。本文使用一种新的集成技术,它不同于bagging和boosting集成技术,因为它们只能集成用相同分类算法建立的分类器;而这种新的集成技术可以集成不同分类算法建立的分类器。所以这种集成技术更能综合多种分类模型的优点,得到更好的分类效果。集成的基础是多种分类算法在数据集上的误分类样本不同,但是我们进一步研究发现,数据集中有一些样本,是多种分类器都不能正确分类的。数据集中一些多个分类算法都不能正确分类的样本对分类算法建立分类模型时存在不利影响,本文中称这些不能被分类算法正确分类的样本为离群点。我们研究删除这些离群点,用分类算法建立分类器,在UCI数据库的多个数据集上的实验结果表明,删除离群点以后建立的分类模型可以得到更高的分类准确率。通过对稀有类分类问题的研究与实践,本文从中探索了一些可行的规律,在一定程度上提高了稀有类分类性能并同时保持总体分类准确率在较高范围内。这为稀有类问题研究提出了一种新的视角同时为进一步的研究工作提供了丰富的实验数据。
其他文献
帧内编码是新一代高效视频编码(High Efficiency Video Coding-HEVC)标准H.265中的核心部分之一。其引入了更先进的预测技术,可大幅度地提升视频编码的编码效率,但是同时编码
随着互联网的普及和Web服务技术的出现,使得基于事务流的电子商务得以迅速的发展,同时也激起了日益强烈的对于智能化的服务组合流程的需求,因为人们希望建立在业务伙伴之上的系
数字水印技术是解决数字产品知识产权问题的一种重要手段,是信息隐藏研究领域的一个重要分支,其基本思想是在不影响原作品的使用价值的情况下,在数字多媒体产品中嵌入秘密信息,以
随着Internet和多媒体技术的迅速发展产生了大量的数字图像库,基于内容的图像检索技术(CBIR)应运而生,但在实际应用CBIR系统中发现,用户必须提供一幅待查询的图像,再通过对待
作为Web技术的提升和发展,语义Web代表了下一代Web的发展和趋势。语义Web将赋予信息资源更明确、更完备的语义信息,使得计算机能够理解Web资源,因而实现Web数据和Web服务处理的
随着计算机技术的发展,信息化已经成为各个产业的必然需求。而且人们对信息的获取、加工、处理的要求越来越高,传统的操作型数据库已不能满足管理者决策分析的需求。数据仓库(D
XML迅速的成为Internet上用于数据表示和数据交换的标准。XML文档大量涌现,XML的有效管理受到广泛关注。为了结合数据库发展的需要,我们研究了在关系数据库中存储和查询XML文档
网盘作为一种新兴的云存储服务,能依靠本地客户端自动将用户设备上的文件储存到云端,并通过云服务在多个设备之间进行文件同步。然而,现有的网盘服务在网络性能、服务可靠性
Web的信息资源和信息服务的数量和复杂度都以惊人的速度增长着,一个站点能否吸引访问者,能否成功地引导访问者获得有用的、恰到好处的信息,成为这个站点是否能够成功的关键。这
随着对高性能计算资源的需求增长,使用云计算环境下的虚拟集群来运行紧耦合的并行应用变得越来越流行。然而在虚拟化环境下,会发生锁持有者被抢占问题。当虚拟机中占有锁的虚