决策树典型算法研究综述

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:weiyinbo007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:决策树算法是数据挖掘领域的一个研究热点,通常用于提取描述重要数据类的模型或预测未来的数据趋势。该文介绍了决策树及其发展过程,重点阐述了三种典型的决策树算法,分析了它们的优缺点,并对三种算法进行了比较,最后探讨了决策树算法的改进方向。
  关键词:数据挖掘;决策树;分类
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)08-0175-03
  1引言
  数据挖掘(Data Mining)技术是一个非常热门的、重要的、具有广阔应用前景的研究领域。数据挖掘的两个目标是预测和描述。分类算法是属于预测式数据挖掘的一种数据分析方法。其中,决策树算法是目前经常被使用的数据分类方法之一,已经成功应用在医疗、交通、金融等领域。
  决策树是机器学习中的一个树状预测模型,其内部结点表示在一个属性上的测试,而叶子结点代表最终的类别结果。决策树模型很自然地还原了做决策的过程,将复杂的决策过程拆分成了一系列简单的选择,因而能直观地解释决策的整个过程。
  本文对三种典型的决策树分类算法进行了介绍,分析了不同算法的优缺点,并讨论了决策树算法今后的改进方向。
  2典型决策树分类算法
  决策树是一种常用的数据挖掘方法,是一个类似流程图的树型结构。决策树包含三个元素:根结点、内部结点和叶子结点。若要对未知的数据对象进行分类,可以按照决策树的数据结构对数据集中的属性(取值)进行测试,从决策树的根结点到叶结点的一条路径就代表了对相应数据对象的类别预测。决策树是一种分而治之(divide-and-conquer)的决策过程,形成决策树的决策规则有许多,如信息增益,信息增益比,基尼指数等。下面介绍三种典型的决策树分类算法:ID3算法、C4.5算法和CART算法。
  2.1 ID3算法
  决策树分类方法的核心算法是由Ross Quinlan在1986年提出的ID3算法。ID3算法的思想是:首先在决策树的各级结点上,选择信息增益最大的属性作为分类结点,根据该属性的不同取值分裂出各个子结点,随后采用递归的方法建立决策树的分支,直到样本集中只含有一种类别时停止,得到最终的决策树。
  基尼指数与熵有类似的性质。Gini(D)、Cini(D,A)分别表示集合D的不确定性以及通过A=a分割后集合的不确定性。基尼指数值越大,样本集合的不確定性也就越大。
  CART算法的优点:1)自动处理缺失值,无需进行缺失值替换,能够处理孤立点。2)可使用自动的成本复杂性剪枝来得到归纳性更强的树。3)变量数多时,可判断属性变量的重要性,自动忽略对目标变量没有贡献的属性。
  CART算法的缺点:1)CART算法本身是一种大样本的统计分析方法,样本量较小时模型不稳定。2)CART算法的要求是被选择的属性要是连续且有序的,并且只能产生两个子结点。
  2.4三种算法的比较
  本文给出了三种典型的决策树算法,它们在关键技术上的使用各自不同,表1列出了对此的一个比较。
  3决策树算法的改进方向
  3.1决策树算法的分类精度
  分类预测算法的精度代表了该算法得到的预测分类结果和实际分类结果之间的接近程度,精度越高,预测的结果越接近现实情况,说明分类算法性能越好。决策树的分类精度将会一直是今后的研究重点。判断各种决策树的生成算法和剪枝算法的优劣,精度是最重要的衡量指标。决策树剪枝是为了减小数据噪声对影响,构造多变量决策树是为了减小决策树的深度,它们的最终目的都是为了提高决策树的精度。
  3.2决策树算法与其他技术的结合
  在数据挖掘中,面临的数据往往是海量的,数据挖掘方法的主动性和快速性显得日益重要。只使用单一的决策树分类算法已经很难处理目前日益庞大的数据集,完成各种数据挖掘任务。因此需要研究决策树算法同其他方法交叉结合的问题。如果把决策树方法同神经网络技术、模糊集理论、遗传算法等相结合来进行研究,可以不同程度地提高处理效率和精度。
  4结束语
  决策树算法虽然已经有了广泛的研究和应用,并且广泛应用于各个领域,如语音识别,模式识别,专家系统等。但是,决策树算法仍需在适应性、容噪性等方面进行适当的改进。如何寻找更好的数据预处理方法,如何发掘更好的优化决策树方法,如何更有效快速地完成决策树剪枝,如何将决策树与多种方法交叉结合等多种问题,都需要今后的学习中去研究。
其他文献
摘要:通过课程建设的定义、内涵、外延及其相关联要素的研究,对我国课程建设实施过程进行了探讨,介绍了该校《C语言程序设计》课程建设的具体做法,明确了课程建设在人才培养方案实施过程中的地位和作用。  关键词:课程;课程建设;精品开放课程;C语言程序设计  中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)19-0111-03  课程是知识的载体,是能力形成的着力点,课程建设
摘要:为进一步发展贵州贫困县大数据产业,加强黄平县药用产业架构建成、提高贫困黄平县的农村向城市转化的速度,提高贫困县当地经济收入,改善当地经济落后水平,该篇文章在对贵州黄平县大数据产业发展的利弊进行分析的基础上,进一步研究大数据发展背景下黄平县的药用价值,提出合适贵州贫困县大数据产业发展的对策。  关键词:大数据;贫困县;扶贫;药用产业  中图分类号:TP393 文献标识码:A 文章编号:1009
摘要:随着计算机软硬件技术的飞速发展,计算机绘图软件更是在不断的更新。本文通过对旅游规划制图研究以及以白玉县乡村旅游规划为例,介绍一种被称为“草图大师”的三维设计软件SketchUp在规划制图中的应用,探讨了在计算机制图软件在规划制图中的流程。通过实例,希望能为有需要做规划制图的人提供参考。  关键词:SketchUp;软件;规划制图  中图分类号:TP311 文献标识码:A 文章编号:1009-
摘要:随着现代社会信息化水平的提高,市场对综合布线工程人员的需求不断增多,因此,综合布线人才的培养以及相关课程的改革变得尤为重要。该文中,以综合布线实训课程中《双绞线的制作》教学为例,探讨信息化教学在综合布线实训课程中的应用。使学生的学习过程成为一个自主、合作、探究的过程。从而创建有价值课堂、有活力课堂,实现教学效果的进一步提升,从而,推进实训教学改革的深入。  关键词:信息化教学;综合布线;实训
摘要:该文通过分析目前课堂教学模式对解决教学教学环节中存在教学时间不够、师生互动环节少等现象所具有的独特优势,提出将课堂与超星慕课平台相融合平衡教学资源的模型并分析超星慕课平台在课堂教学中的作用、功能,该平台对教学环节中所具有的优势,为目前课堂教学改进提供解决方案。  关键词:超星慕课;教学环节重构;平衡教学资源  中图分类号:G433 文献标识码:A 文章编号:1009-3044(2018)03
摘要:《建筑CAD》是高职院校土木建筑及相关专业的一门核心专业基础课,课程整体教学设计关系到教师对本门课程教学的把握。该文从课程定位分析、课程目标设计、课程整体内容设计、教学方法的选择、采取的教学手段、实践能力培养方案、评价体系设计等几个方面探讨了《建筑CAD》课程的整体教学设计。  关键词:建筑CAD;专业要求;教学方法;教学设计  中图分类号:G642 文献标识码:A 文章编号:1009-30
摘要:近十年来我国卫生信息化建设已取得了飞速的进展,信息系统应用水平不断提升,大量的医学信息被科学的记录下来,如何从这些医学数据资源挖掘出深层次的、隐含的、有价值的知识,就变得越来越重要。该文在对各种数据挖掘算法进行分析研究的基础上,选择IBM SPSS Modeler作为数据挖掘平台,以某社区医院电子病历作为数据源,利用不同的挖掘算法对电子病历系统中的数据进行研究。通过数据的采集、数据清理和数据
摘要:对中职教学而言,问题导向法是一种非常实用有效的教学方法,该文首先对问题导向法进行了概述,然后提出了使用该法的技巧和注意事项,并以一节上机实训课为例,简单介绍了它的使用过程,以期为广大教师提供参考。  关键词:问题导向;中职教学;运用  中图分类号:G642 文献标识码:A 文章编号:1009-3044(2017)32-0144-02  “学会、够用”是中职课堂教学应遵循的基本原则,基于中职生
摘要:为了调查大学生的消费现状,以六盘水师范学院的大学生为例,采用问卷调查等方式收集相关数据,并对数据进行整理和统计,分析出六盘水师范学院大学生消费状况,为学生合理消费提供参考意见。  关键词:大学生;消费;问卷调查;参考意见  中图分类号:TP319 文献标识码:A  文章编号:1009-3044(2019)34-0264-02  大学生群体是现今不可忽视的消费群体。随着生活水平的提高,大学生的
摘要:该研究运用2013年中国社会调查数据,通过Stata软件进行分析,并进行Logistic模型回归分析对公务员工作压力对工作绩效的影响进行实证研究。研究以工作压力为自变量,以工作绩效为因变量,以情绪智力为控制变量,分别进行描述性分析、相关性分析以及回归分析,并对工作压力对公务员工作绩效影响情况进行研究。研究发现:适当的工作压力对于公务员工作绩效水平有着积极的促进作用,而且高情绪智力公务员可以通