基于粗糙集的决策树分类算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:CHENHUANHUAN7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树是分类应用中采用的最广泛的模型之一。与其它分类方法相比,决策树无需花费大量的时间和进行上千次的迭代来训练模型,适用于大规模的数据集,除了训练数据中的信息之外不再需要其它额外的信息,表现了很好的分类精确度。其核心问题是测试属性的选择方法,以及对决策树的剪枝。连续属性的离散化和条件属性约简也是扩展决策树算法应用范围的关键技术。本文基于粗糙集理论对上述问题进行了研究,主要内容如下:(1)综述了决策树和粗糙集的基本理论,分析了经典的决策树算法的构造方法。(2)结合粗糙集中决策表的概念,给出了一种参照性的连续属性离散化算法;针对该算法不适用于大规模数据集的特点,利用系统不相容性水平和信息熵的概念对该算法进行了改进,提出了基于信息熵的连续属性离散化算法,并用实例对上述算法进行了分析和比较。(3)对于离散化后的决策表,利用粗糙集理论中条件属性相对于决策属性的核以及条件属性的区分能力的概念,同时考虑到将要建立的决策树的规模问题,提出了一种基于分辨矩阵的启发式属性约简算法。(4)由分辨矩阵的概念可知,在分辨矩阵中出现频率大的属性可一次性区分较多的样本实例,由此提出了基于分辨矩阵的单变量决策树生成算法(STDA)和混合变量决策树生成算法(HTDA),并通过实验分析将上述两种算法与经典的ID3算法进行了对比,通过验证可知这两种算法生成的决策树规模小,决策规则简单有效。
其他文献
以往工作流管理系统只允许在建模时对过程进行编辑和修改,一旦过程运行之后就不能再对其进行修改。这种限制使得它们仅仅适用于那些结构合理、运行时的业务过程与建模时计算机
我国矿山煤炭事故多发造成较大的生命财产损失和严重的社会影响,矿井机车无人驾驶系统的研发和运行能够减少这些事故的发生;同时,矿井机车无人驾驶系统的使用能够减少矿井下面
信息融合是一种智能信息综合处理技术,从本质上讲,故障诊断具有与信息融合相同的目的和要求。同时,多传感器信息融合技术能够提供给故障诊断系统尽可能多的信息,通过对来自不
在图像的获取、传输和存储过程中总是不可避免地引入各种噪声,因此对噪声的分析和处理是图像处理的经典问题。目前有很多性能不错的去噪算法,如非局部平均、BM3D等。但是这些
随着社会经济的快速发展,公共秩序安全、生产安全、财产安全越来越受到人们的重视,视频监控应用在行业领域内取得了很大的发展,但个人用户的发展明显不快。当今3G移动网络的带宽
半物理仿真系统中测控技术的研究对半物理仿真系统有着重要的意义。为了提高无人飞艇半物理仿真系统中测量和控制技术的实时性和扩展性问题,本文对无人飞艇半物理仿真系统中
无线传感器网络作为新一代网络系统,由于其体积小、感应能力强和自组织成一个多跳的无线通信网络,能够将自己感知到的特定物理量数据传输到用户的数据库中,并广泛应用于军事、医
在网络技术不断进步和快速发展的今天,网络环境也日趋复杂和急速恶化,网络安全面临越发严重的威胁和日益严峻的挑战,其直接、最终表现为攻防(攻击和防御)双方的不断循环、往
近几十年来,计算机和通信技术迅猛发展,人们在享受信息化带来便利的同时,也面临着重要信息在传播和使用过程中的安全性问题。随着混沌理论越来越得到人们的广泛关注,利用同步
多源图像融合是信息融合的一个重要分支。图像融合就是采用一定的算法,把两幅或多幅关于同一场景的具有互补特性的源图像融合成一幅新的图像,该图像含有比任何一幅源图像都多