基于决策树的多分类器的集成及应用

来源 :中南大学 | 被引量 : 0次 | 上传用户:zyb1026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘技术中的主要研究课题。目前有许多分类方法,简单的,如判别分析或决策树,复杂的,像人工神经网络或支持向量机。复杂的模型在预测方面通常会获得更好的性能,但可解释性不强,因此不能用来很好的解释预测或模型。就大量分类问题而言,没有哪一种分类器显著优于其它分类器,因此在设计分类器时,分类技术的选择将变得非常困难。就某个具体问题而言,甚至很难找到一个最佳分类器,因为这些分类技术,都有其具体的应用环境。同时,由于比以往更易获得大量数据,和更严格的性能要求(如:速度,准确性和成本),因此,对分类和预测系统提出了更高的要求。在许多新兴的应用中,显然没有哪种单一的分类方法是“最优的”,而更多的是要用到多种分类方法。因此,多个分类器的集成是新兴的应用的常用做法。与单分类器相比,显得更为稳健和强大。   在对大量数据进行分类和预测的情况下,本文提出了一种简单的基于决策树的分类器集成方法。首先,用决策树来对数据集进行变量选择。接下来,使用简化的数据集构造一个强分类器(如人工神经网络和支持向量机)。最后,在实践中证明这种方法是稳健的,并且费时更少。   本论文有下面三个创新点,提高了分类器的性能。第一,决策树可以用来对大型数据集进行分类变量选择。另两个是,一种对变量提取方法的改进,在确保分类准确性的同时,减少分类所用时间。
其他文献
本文基于拉普拉斯交叉和幂函数变异,给出了一类新的混合交叉策略的遗传算法(HLCPM)。通过引入可行种群和不可行种群并在后代保留临时可行解和不可行解,使其混合交叉,保证了种
在模式识别领域中,局部表示是一种新型的特征表示方式,流形学习是一种高效的降维方法,这两种算法由于其有效性而得到许多研究者的广泛关注。本文在局部编码、流形学习的学习
上世纪50年代起,二元线性码就被认为是经典纠错码理论的研究重点之一。而非线性码虽然具有较高的信息率,却因其结构复杂而使编译码在实现上存在重重困难。1991年,Nechaev率先研
全省对外宣传工作会议于6月中旬在海口召开。省委常委、宣传部长周文彰讲话;副省长李礼辉主持会议并作总结讲话;省委宣传部副部长鹿松林传达中央对外宣传工作会议精神并对进
运输问题是运筹学中的一类经典模型。其核心思想为,如何合理规划运输线路,使得在将指定商品按需从产地运送到各个销地的同时,能够使运费降到最低?许多学者在这方面做出了大量研究
作为结构风险最小化准则的具体实现,支持向量机方法具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛的研究。本文仔细研究了支持向量机理论,针对支持向量机算法难以
本文在一阶系统平衡截断方法的启发下,应用平衡截断方法实现二阶系统模型降阶,给出了此方法的算法。使用这个算法,并利用其他已有数学工具,就可以将给定的二阶系统模型降阶,得到简
Hilbert不等式(包括重级数型和重积分型)是分析学中的重要不等式。近二十多年来,它一直受到许多学者的关注。涌现出许多的改进、推广和应用。本文将利用不同的方法对Hilbert型
在近三十年来,分布参数最优控制问题的数值方法一直是一个非常活跃的研究领域.有限元方法已经被广泛的应用于数值求解不同类型的分布参数最优控制问题.并且很多学者都认为有限
分数阶微积分理论是在整数阶微积分理论基础上推广发展而来,从提出至今已有三百多年的历史。尤其是近几十年来得到了众多学者的研究,许多重要的成果在物理学、工程学、机械、医