自适应代价敏感决策树的学习方法

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:niudaben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代价敏感决策树是数据挖掘的一个重要研究课题,近年来受到国内外学者的广泛关注。不少学者结合粗糙集等理论提出了很多算法并取得了较好的效果。但是随着计算机技术的飞速发展,大规模的数据流不断涌现,传统的分类算法亟待进一步改进。针对数据规模大的特点,本文提出了指数加权属性选择的方法以及三种基于C4.5算法的自适应代价敏感决策树的学习方法。首先,本文提出了指数加权的最小总代价属性选择的启发式算法。近年来,针对最小代价属性子集问题,闵帆等采用回溯算法成功地解决了该问题。但在高维数据集上,回溯算法效率较低,本文提出了指数加权的属性选择算法并设计了批量实验验证了该算法的有效性。其次,本文提出了一种自适应划分点选择的代价敏感决策树算法。面对海量的数据,现存的代价敏感决策树算法的效率需要进一步提高才能满足用户需求。对此,本文基于CS-C4.5算法提出了自适应划分点选择机制,有选择地考虑属性在某些属性值处划分的信息增益,进而提高了生成代价敏感决策树的效率。再次,本文提出了自适应属性删除的代价敏感决策树算法。算法根据选择节点时属性启发式函数值的相对大小,自适应地删除属性。实验验证了该算法能取得较好效果。最后,本文提出了一种自适应概率剪枝的代价敏感决策树算法。算法根据剪枝前后的代价的变化比例与给定阈值之间的大小关系来判断是否剪枝。实验通过与经典的CS-C4.5算法、CS-GainRatio算法相比较,证明了该算法在效果和效率方面都能取得较好的结果。
其他文献
改革开放以来,潍坊市零售企业发展速度加快,规模扩大,新旧零售业态并存发展,并与外来企业展开激烈的竞争,虽然取得了不斐的业绩,但也存在着不可回避的问题。本文对潍坊市零售
对于实际系统来说,仅能保证系统的稳定性是不够的,还要保证系统的动态响应满足一定的性能指标,由此提出了保性能控制问题.本文利用Lyapunov稳定性理论和线性矩阵不等式的理论
本文研究了角域内业纯函数的值分布,包括角域内关于小函数的第二基本定理和亚函数的迭代级Borel方向;还着重讨论了单位圆内高阶线性微分方程的复振荡性质。全文共分四章。
本文针对几种已有在不完备决策信息系统下拓展模型的局限性,结合确定性理论和集对联系分析方法,得到更广泛的拓展模型-基于集对联系度相似关系的拓展模型。给出不完备决策信
粗糙集理论在解决信息系统中的不确定、不精确、不完整知识时起到了很好的作用。它处理问题的原理是借助一对精确集合,也就是上近似和下近似,来对一个不精确集合进行近似地描
标号图的研究要追溯到20世纪60年代,其中关于优美图的研究是比较重要的一个研究领域.随着优美图在编码和雷达等方面中的应用,人们对优美图的研究也进入了一个新的阶段。  
地方教师入职教育政策在在执行中由于受诸多因素的影响出现了执行偏差,主要表现为政策残损式执行、敷衍式执行和机械式执行的问题.从执行偏差的原因来看主要是由于政策本身质
[目的]探讨60Coγ射线对马铃薯(Solanum tuberosum)染色体的诱变效应。[方法]采用不同辐照剂量的γ射线对费乌瑞它微型薯进行辐射处理,利用SRAP分子标记,对不同处理的VM1代及
本义研究了一类特殊的富足半群以及wpp和山wrpp半群上的自然偏序。全义分为三章,每章可以看作独立的论文。 第一章,我们主要研究一类具有乘适当断面无交并的富足半群。在探
本文应用动力系统的局部分支和混沌理论, 研究一个二维离散动力系统当参数变化时产生的复杂动力学性质。应用中心流形定理和分岔理论证明了这个二维离散动力系统存在叉型分岔