基于决策树C4.5算法剪枝策略的改进研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:shaonvshashou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法是数据挖掘中的一种重要技术,算法的计算速度、鲁棒性、可解释性、可扩展性以及分类模型的准确率是评价分类算法的主要指标。决策树是对数据样例集合进行分类的十分有效的方法。决策树模型下的分类规则直观容易被理解。决策者运用决策树模型来做出准确的预测已经应用在很多领域。在决策树的各类算法中,J. R. Quinlan提出的ID3算法最具有代表性。现在运用最多的C4.5算法就是在ID3算法的基础上改进而来的。虽然C4.5在ID3的基础上进行了改进,但它在面对属性值为连续型的训练样例时计算效率低。针对计算效率低的问题,国内外的学者在如何快速计算连续型属性的最优阈值,以及计算信息增益率时消除对数运算的改进。均使算法的计算效率得到了提高。C4.5算法有很强的处理噪声数据的能力,无论训练样例中含有分类错误的样例,还是样例缺失一部分属性值。然而当训练样例集合中属性缺失率较高时,C4.5算法建立的决策树模型结点数增多,分类准确度也有一定程度的下降。本文针对这个问题,在C4.5算法的基础上改进了决策树生成算法和剪枝策略。在生成决策树时,若某一子集上的所有属性均未知,则直接返回一个叶子节点,标记为unknown。在对通过此方法得到的决策树进行剪枝时,针对某结点是否应该剪除,要考虑两个因素:一是剪除或不剪除此结点的情况下的分类错误率,二是此节点上unknown结点数与所有叶子结点数的比例。通过此剪枝策略得到的决策树,其结点数一定小于等于C4.5算法得到的决策树中的结点数,而且对属性缺失率高的训练样例有着更高的分类准确率。本文将改进后的算法分别运用在属性值为离散型和连续型的训练样例集上。与传统C4.5算法得到的决策树进行了比较。
其他文献
有限域及其扩域的算术运算,是许多差错控制系统的重要模块。例如,具有强大纠错能力的Reed-Solomon码就是建立在有限域上的运算来完成编码、解码的功能。有限域的乘法运算效率对
随着TCP/IP互联网技术的迅猛发展,各种网络应用层出不穷,尤其是对等网络(P2P)的迅速崛起。P2P应用涉及到影视下载、媒体广播、即时通信、文件共享等各个层面,给人们的工作、娱
随着网络的普及以及多媒体数据获取设备的发展,图像和视频的数量都飞速增长,多媒体资料的存贮索引,比如基于内容的图像和视频检索,已经成为热门的研究领域。   在这个背景下,中
随着计算机及网络技术的迅速发展,给机器人技术的发展带来了新的发展机遇,2015年在北京召开的机器人大会更是将机器人发展推向了高潮。智能型机器人作为机器人技术的一个分支
本文主要运用融合的思想研究三角插值样条曲线曲面造型,并对融合造型曲面运用形状控制参数对其进行控制。本文主要工作是:利用奇异混合思想构造了一种带参数控制的类Bezier插
对文件集进行流式处理,是将具有树状结构的文件集合转化为线性结构的数据块序列进行处理,这包括对树状结构的后续遍历和对单个文件的流式处理。这种方式非常适合于对数据进行一
随着虚拟现实、计算机游戏、计算机动画在近几年的迅猛发展,不规则模糊物体的模拟需求量越来越大。烟火是最常见的不规则模糊物体,又由于现代化军队建设中的虚拟战场和消防部门
近年来,基于IP网络的多媒体、数字视频/音频的应用服务取得了长足的发展。SIP协议不仅是NGN(下一代网络)系列协议中重要的一个,而且也已经成为这类应用事实上的信令协议标准。
新闻作为最主要的信息形式与互联网的结合也越来越紧密。在互联网时代,新闻已经从文字转变成集图片、音频和视频等于一体的多媒体形式。国际新闻电信理事会IPTC根据互联网新
基于Internet的远程监控是目前计算机控制领域的研究热点问题。底层控制器通过企业信息网接入Internet,管理人员可以在世界上任何地方监视并控制这些设备的运行状况而不必亲