基于决策树的分类算法研究和应用

被引量 : 0次 | 上传用户:qiuyujie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对信息时代海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得到迅猛发展。数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,被广泛应用于银行金融、保险、政府、教育、运输等企事业单位及国防科研上。数据挖掘应用的普遍性及带来的巨大经济和社会效益,吸引了许多专家和研究机构从事该领域的研究。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,其中决策树归纳以其易于提取显式规则、计算量相对较小、可以显示重要的决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一,利用率高达19%。应用领域已由医疗到博弈论和商务等领域,是一些商业规则归纳系统的基础。寻找新的构造决策树和简化决策树的方法一直是决策树技术研究的一个热点。SLIQ算法和SPRINT算法很好的解决了磁盘驻留数据太大以至于无法被内存容纳带来的问题。它没有采纳利用抽样或划分数据集来获得可容纳于内存的小树据的处理方法,而是采用了一种新的数据结构,直接在整个数据集上建立一棵决策树。但SPRINT、SLIQ等算法处理的训练集的大小都是固定的,来自稳定的环境,人为干预较少,忽视了数据的变化趋势。在现实生活中,数据集并不是稳定的,而是连续到来的。将现有的算法改进使其能够适应不断生长的训练集,生成一棵与旧树相关的树是十分有现实意义的。本文的研究工作源于上述的背景,目的是对数据库知识发现进行深入的研究,探索数据挖掘中决策树的更新问题,以更好的应用于实际工作中,主要进行了以下的研究工作:1、指出构造好的决策树的关键在于如何选择好的逻辑判断或属性,比较了信息增益、基尼指数属性选择度量方法的优缺点,探讨了将离散属性值组合计算基尼指数来构造二叉树的方法。2、研究了决策树的几种生成算法和剪枝算法,比较了它们的优缺点,特别是针对可伸缩的SPRINT算法做了全面的分析。深入探讨了建树算法与剪枝算法的集成问题,即Public算法以及一个可应用于其它算法
其他文献
美国中小学教师入职教育以价值定位、目标设计、指导原则、内容结构、实践模式和评价体系为结构模块,形成较为完备的结构体系,为提升美国中小学教师的专业素养和中小学教育质
<正>9月9日上午,中共中央总书记、国家主席、中央军委主席习近平在会见庆祝第三十个教师节暨全国教育系统先进集体和先进个人表彰大会受表彰代表后来到北京师范大学,看望教师
我们应用氧化酶法、双抗体放射免疫法和酶标免疫吸附测定法测定PCOS组和对照组的血清及卵泡液中的Glu、Ins、IGF-1、VEGF及IGF-Ⅱ、VEGF水平;应用免疫组化的SP法测定Ir、IGF-
针对暴力视频的检测方法均是单一模态的且效率相对较低等问题,提出文本、视频以及音频3种模态的信息融合算法,构建网络暴力视频识别系统,设计文本以及视音频分类器;将文本分
文章从白狼林业局发展旅游的区位条件和背景出发,对白狼林业局“狼文化主题公园”规划的指导思想、原则、总体布局进行了叙述。
结合叙事学相关理论,对托马斯·哈代的儿童小说进行文本细读,探索在故事和话语两个层面,哈代将“成人——儿童”的关系顺利转变为“教育者——被教育者”的关系,表达出儿童小
本文以生态承载力理论和可持续发展理论为基础,以系统论为指导,应用RS和GIS技术对镇赉县的土地利用/土地覆盖状况进行系统研究,分析了土地利用的数量变化和空间变化规律,提取
本世纪中国的教育学在史册上即将画上句号。对作为学科或课程的中国教育学,试鉴察其史实,寻觅其逻辑。这“阴晴圆缺”的教育学百年,大致是旧中国近50年,新中国近50年。也许可以说有四
<正>慢性阻塞性肺疾病(COPD)是一种世界范围内的常见病和多发病,且患病率仍不断上升,临床治疗手段也仅能缓解症状而不能逆转病程[1]。目前公认的发病机制包括炎症、氧化或抗
<正>笔者结合自己多年的教学经验,总结出了培养学生审美素质的几个要点。一、关注学生的学习方式和学习方法小学美术欣赏教学是培养学生审美素质的重要手段之一,其主要方式有