DecisionTree的原理

来源 :读天下 | 被引量 : 0次 | 上传用户：kof2112

【摘要】

：

【作者】

：

智岩

【出处】

：

读天下

【发表日期】

：

2020年14期

【关键词】

：

决策树分类算法信息熵信息增益

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文探讨了decision treee的设计原理，分析了Decision tree的核心分类思想，并给出了决策树的分值构建的伪码。
　　关键词：决策树;分类算法;信息熵;信息增益
　　
　　一、研究背景
　　给定A一个问题Q1，我们列出其诸多答案选项B。比如，B={B1，B2，…，Bn}。其中，n标示共有n个子选项，每个选项都是潜在的答案。然后，我们让A根据我们的提供的答案B，告诉我们B中的哪个答案是正确的，比如Bi是A给我们的反馈。若答案Bi并非问题的最终解，我们更进一步的根据B的特点提问，设问题是Q2，根据Q2，我们设定答案选项C。同样，不是一般性，我们假定C={C1，C2，…，Cp}。其中，p表示C中共有p个答案选项。如果A告诉我们Ci是正确答案，那么，我们就得到了更进一步地对问题的收敛解。以此类推，我们可以一直以这种操作延续下去，则最终肯定能够得到一组满足要求的解。这个过程就是普通树的生成过程，同时，也是决策树的研究背景。
　　二、信息论基础
　　n分之一份信息量（定义1）：若存在n个相同概率的消息，则每个消息的概率p是1/n，一个消息传递的信息量为-log2（1/n）。
　　熵（定义2）：熵是体系混乱程度的度量，即信息的信息量大小和它的不确定性有直接的关系。对于任意一个随机变量X，若有n个消息，其给定概率分布为P=（p1，p2，…，pn），则由该分布传递的信息量称为P的熵，它的熵定义为：
　　H（X）=-∑xP（x）log2[P（x）]
　　由图可见，离散信源的信息熵具有：
　　①非负性：即收到一个信源符号所获得的信息量应为正值，H（X）≥0
　　②对称性：即P=0.5
　　③确定性：H（1，0）=0，即P=0或P=1已是确定状态，所得信息量为零
　　④极值性：因H（U）是P上是凸的，且一阶导数在P=0.5 时等于0，所以当P=0.5时，H（U）最大。
　　信息增益（定义）：设关于变量X的划分P，在做划分之前的信息为H（Xi），做划分之后的信息为H’（Xi），则系统的增益为△=H（Xi）-H’（Xi δ）。其中δ表示相对Xi的该变量。
　　注意，这里的Xi是向量。我们称Xi为特征向量。显然信息的增益指的是变化前后系统中信息的变化量。若某个Xi，使得△最大，则这样的Xi是最好的，因为使用这个特征向量引起的操作增益是系统敏感的。
　　三、基于ID3分类的Decision tree
　　决策树由node、branch和leaf组成。和普通的树一样，决策树的最上面的结点为根结点，递归地，每个branch是一个新的决策node，或者是树的leaf。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。决策树的分类的思想是：沿决策树从上到下遍历的过程中，在每个结点处都会生成一次询问测试，对每个checking node上的不同问题对应的不同的询问测试结果产生不同的后续分支，以此类推，直到最后到达某个叶子结点。前述增益的特性时，已经明确了，ID3算法计算每个属性的信息增益，对于关于使用某个特征值后系统的增益，越大越好。故使用作为具有最高增益的属性作为给定checking node的询问（query）测试属性。且以此询问测试属性构作一个node，并以该节点的属性标记，对该属性的每个值创建一个分支据此partition样本。
　　下面给出递归调用如下的CreateBranch函数创建决策树分支的方法创建决策树的伪代码，以结束本文的讨论：
　　CreateBrach（…）{
　　检测数据集中的每个子项是否属于同一类：
　　If yes
　　Return label of class
　　Else
　　通过计算信息熵获得的信息增益寻找划分数据集的最好特征
　　Partition data set
　　创建分支节点
　　For 每个划分的subset
　　 Call CreateBranch（…），并增加返回结果到分支节点中
　　Return 分支结点
　　}
　　参考文献：
　　[1]周志华，王珏.机器学习及其应用2009[M].北京：清华大学出版社，2009.
　　[2]周志华.机器学习[J].航空港，2018（2）：94.
　　[3]崔伟东，周志华，李星，等.支持向量机研究[J].计算机工程与应用，2001（1）.
　　[4]姜远，黎铭，周志华.一種基于半监督学习的多模态Web查询精化方法[J].计算机学报，2009（10）：217-224.
　　[5]李楠，姜远，周志华.基于模型似然的超1-依赖贝叶斯分类器集成方法[J].模式识别与人工智能，2016，20（6）.
　　[6]曲开社，成文丽，王俊红.ID3算法的一种改进算法[J].计算机工程与应用，2003，39（25）：104-107.
　　作者简介：
　　智岩，广东省广州市，广州工商学院。

其他文献

碳酸钙表面改性研究进展

介绍了碳酸钙粉体表面改性的方法——局部反应改性、表面包覆改性、高能表面改性及机械化学改性,对碳酸钙粉体表面改性的发展前景进行了展望。

期刊

碳酸钙表面改性剂表面改性

高校辅助教学系统的设计与实现

针对高校课堂学生玩手机,不注意听课,导致学习效果差等问题。该通过调研提出了一款高校辅助教学系统的设计与实现方案,该系统包括了课堂考勤、在线抢答、问卷调查、在线测验

期刊

教学辅助在线教学移动应用teaching aidonline teachingmobile application

全科医生培训质量与全科医学发展

一个学科能否健康发展的重要条件之一,是看该学科是否有高素质的学科载体.美国的全科医学发展就曾因此而经历了一次失败的过程.人们只知道美国的家庭医学是60年代发展起来的.

期刊

全科医学医学教育全科医师医生培训专科医生家庭医生全科医疗家庭医学萨克斯坦医学发展

模具对PVC型材性能的影响

考察了PVC型材模具的长径比、压缩比及长径压缩比对产品拉伸强度、断裂伸长率、冲击强度、受压弯曲应力的影响。结果表明：所考察的模具较合适的压缩比为3．6左右，长径比为40左右

期刊

PVC型材模具压缩比长径比性能PVC profile mould compression ratio ratio of hcight to diame

2012年1—2月我国烧碱、聚氯乙烯保持同比小幅增长

根据最新公布的石化经济数据显示：2012年1—2月全国烧碱、聚氯乙烯两大氯碱主营产品产量继续保持同比小幅增长。

期刊

聚氯乙烯烧碱数据显示产品产量氯碱

iOS平台三单制服务进社区系统的设计与实现

基于iOS[1]平台,设计了一款党员进基层社区服务管理系统。通过该系统,社区可以进行活动的在线申报,党支部可以进行在线应答,按照社区的活动要求组织支部党员进行接单,并在规

期刊

IOS社区服务服务管理三单制iOSCommunity serviceService managementmulti-cooperation system

河北精信化工环保型PVC有机稳定剂获得专利

由河北精信化工集团有限公司自主研发的环保型PVC有机稳定剂获得国家知识产权局发明专利授权。该产品以其优良的环保、物化性能填补了我国高端PVC稳定剂产品市场上的空白，并进

期刊

PVC制品有机稳定剂专利授权环保型化工河北国家知识产权局产品市场

内镜下袖状胃成形术的机遇和挑战

肥胖及其相关伴发病,如2型糖尿病、高血压、高脂血症、非酒精性脂肪肝等是困扰全世界公共卫生的严重问题。内镜下袖状胃成形术(ESG)通过模拟外科袖状胃切除术,在胃腔内以全层

期刊

内镜下袖状胃成形术减重外科肥胖endoscopic sleeve gastroplastybariatric surgeryobesity

加强媒体融合发展提高舆论引导能力——无锡广电的探索与实践

作为城市主流媒体,无锡广电始终坚持新闻立台,尤其是本土新闻立台,以构建现代传播体系、打造新型主流媒体为目标,着力推进新闻资源有机整合,推动传统媒体与新兴媒体融合发展

期刊

无锡广电新闻立台媒体融合舆论引导传播力

浅谈儿童剧的艺术格局及创作

摘要：随着我国科技与经济的不断进步，儿童剧艺术的格局与创作也在不断完善，而儿童剧艺术在随着儿童文化艺术的发展与进步中不断强化与成长，使得整个儿童剧文化艺术建立的十分丰富且有效。为此儿童剧如果想要进一步明确整个艺术格局与创作核心的提升，就必须要做到以儿童为主要中心，这样才可以进一步保障儿童剧艺术的良好发展空间，为整个艺术创作来打造新型的理念，从而才可以进一步保障儿童剧在当前社会环境中可以更好地发展

期刊

儿童剧艺术格局创作研究

DecisionTree的原理

与本文相关的学术论文