基于类分度的一种新决策树算法的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:email_97
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据库记录中挖掘出有价值的模式或有规律等知识的复杂过程,已被广泛应用于金融、保险、运输及国防等科学研究领域。其中决策树分类算法是数据挖掘中最为广泛研究和应用的一个课题,是一种有效的数据挖掘分类方法,那么,进一步提出更好的分类算法或改进现有的决策树算法,需要许多研究学者的共同努力。提高决策树的性能,使其更好的适应数据挖掘技术的发展要求,具有重要的理论和实践意义。所以,研究决策树分类算法具有很高的理论意义和应用价值。  本文对测试属性选择标准进行了深入的研究,主要包括以下几个方面的内容:  首先,通过对文献中提出的类别因子原理的分析和深入的剖析研究,提出了基于类分度的决策树算法。该算法能够很好的构建决策树,不仅执行时间效率好,而且有很好的分类能力。  其次,当多个属性的类分度相等的时候,我们该如何选择一个最佳的属性作为当前的节点属性,为了解决这一问题,我们通过实验数据的例证,从实验结果中,得到如何区分属性间分类能力的差异性,提出了优化系数的概念,来修正本文提出的算法,该算法不仅保持了决策树算法的有效性,而且克服在选择测试属性时,存在的多值偏向问题。  最后,我们组合优化系数和该算法,形成了最终的决策树算法。通过实验表明了该算法的可行性和优越性,与经典的ID3算法和基于WMR算法相比较,不仅减小决策树的深度,同时也具有很好的执行效率。
其他文献
文本分类技术是依据预先定义的类别,对网络中大量的未知信息进行分类,以提高信息的利用率,来实现信息对研究者的价值。文本分类包含文本预处理、文本语料库、构造分类器、特
随着计算机网络在人们工作和生活中的广泛应用和网络规模的扩大化以及结构的复杂化,网络故障出现的概率越来越大,由网络故障引起的损失不可估量,网络故障管理的重要性日趋显
随着信息时代的持续发展,大量的文件以电子介质方式使用或存储,从个人隐私到政企机密文件,任何一条敏感信息不经意的传播和复制,都可能给当事者带来灾难性的危害.电子资料的
新一代宽带无线城域网接入技术WiMAX,以其高传输带宽、多类型业务支持能力以及灵活高效的组网方式,使其发展前景更为广阔。虽然WiMAX定义了四种不同的业务类型及相应的QoS标准
随着传感器技术的发展,传感器网络正广泛应用到各个领域,传感器Web理论也逐渐完善和成熟。但是传感器网络的异构性,使传感器网络之间很难互联在一起,难以实现资源的有效共享
随着计算机互联网的高速发展,各种互联网应用不断涌现,因此需要网络管理技术对网络带宽资源进行合理优化。在使用网络管理相关技术之前首先需要对互联网中的各种应用流量进行识
随着三维激光扫描技术的发展,人们可以快速准确的获得物体表面大量的采样点。但是这些数据非常庞大,对后续的实时和高效的处理带来了很大的挑战,因此准确且高效的处理这些点
随着信息化的不断深入,信息技术给人们的日常生活带来了巨大的便利,同时也使得人们面临的信息安全风险越来越高。通过信息系统安全风险评估,可以有效地对安全风险进行控制和
互联网金融是基于移动互联网,网络支付,大数据等新技术手段,从而实现资金流通,平台中介,资金结算交易相关业务的一种新模式。互联网金融从早期传统金融机构为基础,进行业务线上化、
多机器人系统的追捕-逃跑问题是人工智能和分布式控制领域的一个热点问题,是研究多机器人系统中团队协作的重要途径。追捕-逃跑问题的复杂度会随着参与者的增加呈指数增长,分层