基于决策树的分类算法研究

被引量 : 0次 | 上传用户:LYXTTKX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。在这一过程中,对数据的分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,如决策树方法,关联规则、贝叶斯网络、遗传算法、神经网络、粗糙集方法等等。决策树分类方法以其算法的基础理论清晰、易被人们理解以及容易转换成分类规则等优点而被广泛研究与应用。 本文主要介绍如何利用决策树方法对数据进行分类挖掘。文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法—ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRINT算法。通过分析与比较它们各自的优缺点,本文提出一种基于ID3算法的简化熵权算法。该算法的思想是首先将泰勒公式的原理与ID3算法的属性选择标准--信息熵的求解相结合,对ID3算法信息熵的求解进行简化,改变了决策树算法中属性选择的标准,减小了算法的计算复杂度,提高了算法的运行效率;然后再赋予每个属性简化后的信息熵一个权值N,N的取值取决于每个属性的取值个数,用以平衡每个属性对数据集的不确定程度,使得属性的选择更加合理化,避免选择的属性与实际不相符。 最后在Eclipse平台上利用Java语言分别实现改进前后的ID3算法。实验结果表明,改进后的简化熵权算法提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。理论分析和实验结果表明,本文提出的改进算法改善了决策树的ID3算法的性能,表现出了良好的分类效果。
其他文献
目的探究全面护理干预在老年重症急性胰腺炎(SAP)患者围手术期中的应用效果。方法选取我院老年SAP患者72例,依照入院顺序分为两组,各36例。常规组接受常规护理干预,观察组在
目前,常规的地震资料处理一般采用叠后时间偏移,但它只能解决反射层归位和绕射波收敛,而不能解决倾斜界面的非共反射点叠加问题。叠前偏移技术是解决精细速度分析和复杂构造
自上世纪80年代以来,物流外包已成为商业领域的一大趋势,制造业和商业都纷纷将自己的物流外包给专业提供物流服务的外部物流提供商,即第三方物流。据统计,第三方物流占总物流
公司在社会经济生活中作用的发挥,以公司有效存在作为前提。在现代公司法中,公司设立制度占有重要的地位,各个国家的公司法都对公司的设立制度表示关注。在我国,随着市场经济
分解炉作为新型干法水泥生产系统的关键设备,由于炉内多相流、燃烧、生料分解等复杂的物理化学热工过程,且各过程相互制约、相互耦合,采用传统的热模或冷模研究不可避免地要
煤是水泥工业分解炉中的主要燃料,随着优质资源的日益稀少,水泥工业正逐步向使用低活性煤的方向发展,然而煤质的变化必然会影响到分解炉内工况的稳定。因此,科学地评价不同煤
该文通过调查分析,学生上午困倦与体育锻炼运动量大或运动量过小相关联,运动量适中是保持强壮体魄,精力充沛的基础条件。
电动燃油泵是汽车燃油供给系统的重要组成部分,其功用是将燃油从油箱内泵出并通过喷油器供给发动机各个气缸。因而,汽车电动燃油泵性能的好坏直接影响到汽车的安全运行状况。
电动燃油泵是汽车燃油供给系统重要的组成部分,其作用是把燃油从油箱内吸出并通过喷油器供给发动机各气缸,燃油泵质量的好坏将直接影响到整车性能,因而在燃油泵的装配过程中
近年来,互联网订餐平台在中国呈现爆发式增长,对最传统的餐饮行业产生了巨大影响。一方面,互联网订餐平台对广众餐饮有限公司等餐饮企业产生了巨大的冲击,互联网订餐平台背靠