论文部分内容阅读
代价敏感决策树是数据挖掘的一个重要研究课题,近年来受到国内外学者的广泛关注。不少学者结合粗糙集等理论提出了很多算法并取得了较好的效果。但是随着计算机技术的飞速发展,大规模的数据流不断涌现,传统的分类算法亟待进一步改进。针对数据规模大的特点,本文提出了指数加权属性选择的方法以及三种基于C4.5算法的自适应代价敏感决策树的学习方法。首先,本文提出了指数加权的最小总代价属性选择的启发式算法。近年来,针对最小代价属性子集问题,闵帆等采用回溯算法成功地解决了该问题。但在高维数据集上,回溯算法效率较低,本文提出了指数加权的属性选择算法并设计了批量实验验证了该算法的有效性。其次,本文提出了一种自适应划分点选择的代价敏感决策树算法。面对海量的数据,现存的代价敏感决策树算法的效率需要进一步提高才能满足用户需求。对此,本文基于CS-C4.5算法提出了自适应划分点选择机制,有选择地考虑属性在某些属性值处划分的信息增益,进而提高了生成代价敏感决策树的效率。再次,本文提出了自适应属性删除的代价敏感决策树算法。算法根据选择节点时属性启发式函数值的相对大小,自适应地删除属性。实验验证了该算法能取得较好效果。最后,本文提出了一种自适应概率剪枝的代价敏感决策树算法。算法根据剪枝前后的代价的变化比例与给定阈值之间的大小关系来判断是否剪枝。实验通过与经典的CS-C4.5算法、CS-GainRatio算法相比较,证明了该算法在效果和效率方面都能取得较好的结果。