决策树学习及其剪枝算法研究

被引量 : 0次 | 上传用户:LJX22766966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是信息处理领域的一项重要课题,它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。其中分类分析在商业等领域中的成功应用使它成为数据挖掘中最活跃、最成熟的研究方向。目前常用的分类方法有决策树、关联规则、贝叶斯网络、神经网络、粗糙集模型和统计模型等。而决策树方法以其速度快、精度高、生成的模式简单易懂以及容易转化成分类规则等优点,在数据挖掘领域被广泛地研究和应用。本文主要介绍如何利用训练数据集来构造决策树模型,以及如何解决决策树学习过程中的常见问题。论文从算法描述角度详细地阐述了ID3算法和其它改进算法的理论基础与学习过程,并结合近年来流行的数据仓库技术和数据挖掘问题,简要地讨论了决策树归纳的可扩展性。针对几种典型的决策树算法的优缺点,文中对它们进行了综合的分析与比较。但是通过学习训练数据来构造决策树的策略可能无法达到最好的泛化性能。随机噪声和某些决策仅取决于少量的训练数据,都会导致决策树的分类精度下降,并且过度拟合训练数据。过度拟合问题是决策树归纳学习中的一个实践难题,避免过度拟合主要是通过对树的剪枝来实现的,包括预剪枝和后剪枝。常用的后剪枝算法有五种,REP、PEP、MEP、CCP算法和后规则修剪方法。为了在决策树剪枝中选择正确的方法,本文主要从计算复杂性、误差估计和算法理论基础角度对它们进行阐述。另外,由于在决策树的构造过程中采用贪心算法,因而造成了决策树规模过大、产生的规则长度过长等缺点。为了减小决策树的规模,提高预测精度,文中总结了五种决策树优化方法。最后利用决策树工具包See5来分析决策树剪枝前后的各种问题,包括:决策树叶子结点的数目,修剪后的决策树在测试集或验证集上的分类错误率和预测精度。实验数据表明,剪枝后的决策树规模明显减小,而且能够提高它在测试集上的分类精度。如果训练数据较少,PEP算法表现出良好的预测精度,随着数据规模的增大,使用REP和CCP剪枝方法得到的决策树的分类性能和预测精度明显提高。
其他文献
目的:比较两种不同设计类型(半预成不可调式与半预成可调式)的口腔矫治器治疗轻度及中度阻塞性睡眠呼吸暂停综合征(obstructive sleep apnea,OSAS)的疗效。方法:采用随机对照试验
随着计算机技术、网络技术、智能控制技术、大数据技术的发展和应用,传统的图书馆已经不能满足担负着重要科研任务的科研单位的发展需要,因此数字图书馆的建设势在必行,而且
IFNLR1编码的蛋白质属于Ⅱ型细胞因子受体家族,其与IL-10RB结合成异二聚体受体复合物,与配体Ⅲ型干扰素IFNλs识别并结合,激活Jak-STAT信号通路。IFNLR1的表达模式不同于Ⅰ型
民歌是中华民族传统文化中最具代表性和世界性的元素之一。作为一项具有强大生命力的传统艺术形式,民歌始终与时代前进的方向保持一致,呈现出鲜活感。随着时代的步伐进入二十
活性MgO水泥是一种低碳胶凝材料,通常由大量工业废渣、适量活性氧化镁及少量的水泥制备而成。与传统水泥不同,活性MgO水泥经碳化后产生较好的力学性能。研究了由20%~40%活性M
<正>手术名称:腹腔镜右肾盂离断成形术术者:夏庆华术前精要:1体位:左侧卧位,腰部垫高,呈折刀位。2特殊器械使用:超声刀。术中精要:1建立气腹,在右肋缘下2cm锁骨中线处,气腹针
<正> 《金匮要略》第七篇第5条载有肺中冷,以甘草干姜汤温之。有谓属于肺痿病,有谓不是肺痿病,歧议纷纭,自《金鉴》以降,迄二百余年矣。近读徐树民等同志《甘草干姜汤证非肺
本文主要通过重点研究和总结当前品牌视觉形象设计的设计趋势,为现代品牌视觉形象设计提供有效的程序与方法。全文分为六章。第一章是绪论,主要描述了本课题研究的背景、意义、
本科毕业设计是高等院校培养合格人才的主要教学程序和教学手段,是一项理论与实践密切结合的创新活动,是设计者理论水平、创新能力、专业实践能力等综合素质的全面展示,是培
水是维持生态系统完整、人类生存和社会经济发展的基础性资源,然而随着近年来人口增长、生产扩大和城市化进程加快,水资源短缺和水环境恶化问题日益显现出来。我国是缺水国家