基于粗糙集理论的决策树剪枝

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:bm_imba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(DM-Data Mining)是运用基于计算机的方法,包括其它新技术,从大量的数据中搜寻有价值的、非同寻常的新信息的过程。数据挖掘的核心技术算法主要有统计分析方法、神经网络、决策树方法、遗传算法等。其中决策树方法是一种广泛使用的用于分类的方法,它通过一组无次序,无规则的实例推理出决策树表示形式的分类规则,从而找到一些有价值的、潜在的信息。目前很多决策树构造方法得到的决策树,都具有较好的精度,但是存在着计算量大、泛化能力受限制的缺点,而粗糙集理论是由波兰数学家Z.Pawlak提出的继概率论、模糊集、证据理论之后的又一个处理不确定性知识的数学工具,近年来其有效性已在许多科学与工程领域的成功应用中得到证实。基于此,决策树分类方法引入粗糙集理论,本文通过理论分析和实验验证,得出基于粗糙集理论的决策树分类方法取得了较好的结果。通过分析基于粗糙集理论的决策树后剪枝方法,发现各种后剪枝方法存在只注重整体的缺点并提出了解决策略—基于叶结点的决策树剪枝方法。本文具体内容安排如下:1决策树构造简单介绍决策树,主要讲述著名的决策树构造方法ID3算法及由其改进并得到广泛使用的C4.5算法。2决策树剪枝决策树剪枝是提高决策树的泛化能力、防止过匹配(over-fitting)现象的有效方法。剪枝策略有预剪枝和后剪枝,本文对六种后剪枝方法进行了分析。3基于粗糙集理论的决策树构造和剪枝方法粗糙集理论具有处理不确定性知识的能力,本章将粗糙集理论引入决策树构造和剪枝方法以消除噪声的影响,实现在计算复杂度较小的情况下,得到精度较高的决策树。4基于叶结点的决策树剪枝方法决策树后剪枝方法往往通过比较决策树中非叶结点剪枝前后的效果,制定剪枝策略的标准,忽略了每个叶结点的贡献,影响剪枝的效果。为避免这一现象,本文提出基于叶结点的决策树剪枝方法,将每个叶结点的重要性作为剪枝策略的依据,并通过实例验证了这一思想的可行性。
其他文献
随着信息技术和互联网的迅速发展,计算机网络与信息系统所面临的安全问题越来越严重。传统的安全技术大都属于静态机制,局限于防护环节,难以满足网络安全的需求。入侵检测技
以基因相互作用为基础的全基因组关联分析(GWIBA)有挖掘新的复杂疾病易感位点的潜力。这些基因之间的相互作用可能被当前一般的全基因组关联分析研究(GWAS)所遗漏。然而,当前
无线传感器网络(Wireless Sensor Network, WSN)技术是一门新兴的网络技术,它将成千上万颗传感器节点布置到需要监控的区域,通过其自身的自组网能力,组成一个可以在较大范围
在过去的三十年,基因组测序技术的发展推动了整个生命科学领域的革命。第一个基因组序列绘制完成,使探讨生命的分子机理、揭示遗传变异的本质、发现细胞调控的机理成为可能。
铜铟镓硒(CIGS)化合物薄膜太阳电池是第二代太阳电池的典型代表,其特点是弱光性好、稳定性好、抗辐射能力强、基本无光衰减、光吸收系数高、转换效率高。目前,实验室中的小面积
自抗扰控制技术是一种实用有效的控制系统设计方法。通过大量的理论研究和实际工程应用表明,自抗扰控制技术具有着设计实施简易、控制精度高、动态性能好等诸多优点。更为优越
随着能源危机和环境问题不断加剧,太阳能作为可再生的清洁能源越来越彰显出其重要地位。由于受到转换效率和装机容量的限制,光伏发电的发展速度受到了一定影响,微逆变器的应用对
清吴骞《阳羡名陶录》有载:李仲芳向父亲出示其精心制作的新壶,说:“老兄,者个何如?”宜兴古名阳羡,李仲芳子承父业,自小与紫砂结缘。后来得拜制壶名家时大彬为师,但其创作走
本文论述了语文课堂教学是师生思维活动的相互交流的很有效的学科。课堂教学在传授知识、训练技能的同时,更应该重视思维能力的培养。能力是多方面的,而思维能力是各种能力的核
狗牙根是一种典型的暖季型草种,主要用于牧草生产和草坪草建设,广泛分布于热带、亚热带地区。近年来随着全球气候变暖现象的发生,狗牙根牧草生产在热带地区的需求越来越受到重视