决策树分类及剪枝算法研究

被引量 : 0次 | 上传用户:wjjun05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量数据记录中挖掘出有价值的模式或规律等知识的复杂过程,已被广泛应用于金融、保险、运输及国防等领域。其中决策树分类算法是数据挖掘中最为广泛研究和应用的一个课题,所以决策树分类算法的研究具有很高的理论意义和应用价值。本文详细阐述了决策树的基本概念、主要研究内容和几种典型的决策树算法。由于在决策树生成过程中,会过度拟合训练数据,而且易受噪声数据的影响,所以剪枝操作是决策树生成过程中的一个重要步骤,本文对四种主要的决策树剪枝算法进行了研究和比较。对多关系决策树分类算法(MRDTL)的研究与改进是本文的重点。在MRDTL算法生成的决策树中,用选择图表示树中节点。MRDTL算法直接在多个表上进行分类挖掘,而不需要将多个表连接成一个表后,再在该表上进行挖掘。MRDTL算法中的一个重要步骤是通过计算各限定词的信息增益来选择最优限定词,即选择具有最高信息增益的限定词添加到决策树中。MRDTL算法中在计算信息增益的时候会出现漏掉记录的情况,所以会导致计算计算信息增益的结果不准确。针对这一问题,本文改进了MRDTL算法中计算信息增益的方法。并对改进的计算方法进行了理论分析和实验验证。同时,根据改进的计算信息增益的方法,相应的对建立补充表的算法进行了修改。
其他文献
随着我国国民经济的快速发展,交通量迅速增长,车辆呈现出大型、重型化,特别是交通超载、超限运输日益加剧,加之受环境、气候条件、结构设计限制,干线公路沥青路面不可避免地
飞机结构中缺陷的检测识别和定量分析是目前航空无损检测领域面临的一个严峻挑战。脉冲涡流检测技术是近几年发展起来的一种新的电磁无损检测技术,其在对多层金属结构中缺陷
高空作业车是一种用来运送工作人员和工作器材到达指定高度进行作业的工程机械设备。目前,随着高空作业车使用领域的不断扩大,为了满足实际工程的需要,高空作业车的作业高度
本报讯 首席记者殷雷发自德宏 昨日,记者从云南省科学院热带亚热带经济作物研究所获悉,2016年全球咖啡豆产量为909.74万吨,较2015年增长0.12%。其中,亚洲及太平洋地区咖啡豆产量
报纸
随着目标探测和识别手段的快速发展,弹道导弹在飞行中段被发现和拦截的概率大大提高,必须丰富干扰掩护手段以提高其突防概率。利用弹道目标姿态角和ISAR成像质量的联系性,提
目的:观察中药肝复康对肝纤维化大鼠肝组织Janus激酶2(JAK2)及信号转导子和转录激活子3 ( STAT3 )表达的影响,并对其在JAK2/STAT3信号通路上治疗肝纤维化的作用机制进行初步
目的:在正常肝脏的纤维组织中存在着细胞外基质(ECM)生成与降解的动态平衡,肝纤维化是ECM生成与降解过程失衡的结果[1,2]。既往对ECM的生成与沉积研究较多,近年开始对ECM降解
房地产是一个具有高度综合性和关联性的行业,不仅在改善人居环境和完善城市功能的方面发挥着重要作用,在拉动区域经济增长和带动相关产业发展方面也发挥着主导作用。我国的住
本文在分析论证远程图象制导导弹武器系统制导与控制系统方案的基础上,提出了中段SINS/GPS组合导航+末段光纤图象寻的复合制导与控制系统方案,重点进行了中末交班段制导与控