【摘 要】
:
组合分类方法是机器学习领域逐渐发展起来的用于提高弱分类器准确性的有效方法,被认为是十几年来研究的最好的学习算法之一。大量的理论和实验研究表明:与单个分类模型相比,组
论文部分内容阅读
组合分类方法是机器学习领域逐渐发展起来的用于提高弱分类器准确性的有效方法,被认为是十几年来研究的最好的学习算法之一。大量的理论和实验研究表明:与单个分类模型相比,组合分类模型具有明显的优势。在组合分类中,影响组合分类器性能的一个重要因素是各个基分类器间的差异性。不同的组合算法通常采用不同的方法来保证这种的差异。经典组合分类算法如Bagging、Boosting,都是从训练样本的角度出发采用随机抽样的方法来生成不同的基分类器。随机抽样能够保证基分类器的差异,但它也有缺陷——存在丢失信息的风险,特别是在训练样本集很小的情况下,这个问题就更突出了。我们从RotationForest算法中得到启发,通过对训练数据集进行特征变换来保证基分类器的差异度。由此我们提出了一种新的组合分类算法——ICATrees。与传统的建立组合分类器方法不同是,此算法在建立组合分类器时是从数据集的特征属性出发,通过随机划分、特征变换ICA,将训练数据集映射到不同的特征空间后,再使用决策树分类算法J48对其进行学习,生成基分类器。该算法是基于完整训练数据集进行学习的,从而能够有效地避免抽样所带来信息丢失的问题。通过随机划分和特征变换,该算法不但能够保证各个基分类器的差异,并且在随机选取的30个UCI数据集上的实验表明,与Boosting相比,在分类准确率上也有了一定的提高。
其他文献
数据空间(Data Space)是作为解决当前数据管理所面临的挑战而提出的一种新的数据管理技术。随着信息技术的不断发展,数据源多源和多样化特点使的传统以关系数据结构为基础的数据
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中
MEMS是将微电子技术与机械工程融合到一起的一种工业技术,在近年来得到了越来越广泛的应用,在工业、信息和通信、航空航天、航海、医疗和生物工程、农业、环境和家庭服务等领
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子与信息处理平台的中间环节,因此中文分词的处
随着信息技术的飞快发展,信息的安全问题正在成为研究的热点。目前关于计算机设备的信息安全研究还主要集中在软件层面,虽然达到了比较好的效果,但没有从本质上解决安全问题
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,有效检索这些海量信息以获得感兴趣的部分已经成为人们迫切需要的服务。在实
近年来,复杂网络中社区结构的发现及社会关系知识的挖掘,已经成为数据挖掘领域的研究热点之一。电子邮件系统中的邮件通信网络是一种较简单的社会网络,其社区划分问题本质上
传统学术论文作为记录、传递、累积、创新、交流人类科技成果的载体和工具一直伴随着学术界的成长。但随着科学技术的迅速发展以及Internet的出现传统科技学术期刊的出版慢慢
无线传感器网络是由布置在检测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统。现已广泛应用于军事、环境监测和现代化农业等方面,
辩论是社会日常生活、工作中广泛存在的一种重要群体活动,基于Web的辩论支持系统是目前群体决策支持系统领域研究的重点。辩论支持系统以计算机为媒介,主要用来解决对抗性强