决策树过拟合问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:syf1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库知识发现是(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,分类是其中的一个重要研究方向。决策树是分类中常用的模型之一,自1966年被提出以来已经得到了广泛的研究和应用。然而,由于种类偏见,过拟合等问题,使决策树优化成为研究人员关注的热点。本文基于针对可疑实例分析以及结点纯度差变化趋势两个方面分别对决策树构造算法中的过拟合问题处理展开研究,主要工作如下:1.综述并分析了现有决策树经典算法及主要优化算法。2.提出了基于可疑实例影响度分析的改进的C4.5rules算法,将可疑实例进行有效划分,并计算其全局影响度大小,使得分类规则能有效避开可疑实例而更加正确的反应数据的真实情况。3.针对传统决策树过拟合现象普遍且大多数预剪枝算法严重依赖领域知识的问题,提出基于结点纯度差(PDN,Purity Distance of Node)变化趋势的决策树优化算法,通过跟踪相邻父子结点间的最大纯度差变化趋势,判定停止建树的时机,可以独立于领域知识实现有效的预剪枝并很好地控制了过拟合的发生,同时大大减小了决策树规模。4.基于上述研究,实现了原型系统,从理论和实验上证明了所提出的算法的正确性和有效性。
其他文献
服务组件架构SCA(Service Component Architecture)是一组规范,由IBM、BEA、Oracle、SAP等国外著名企业参加的OSOA(Open ServiceOriented Architecturel组织起草并规范。SCA
Mashup服务是一种将来源不同的Web API数据内容服务进行集成开发而形成的Web应用,是一种新型的Web服务。它从外界其他数据源得到数据内容服务,并将这些数据源的内容服务进行
随着业务流程技术的快速发展和广泛应用,用户可更高效的构建更新业务流程管理系统,从而积累了大量跨领域异构业务流程,根据参考流程检索出相似流程(流程检索)这一需求也日益
随着单片机的广泛应用,社会对单片机开发人员的需求越来越大,对他们的要求也越来越高,如何培养高素质的单片机开发人才对高校是十分重要和迫切的。目前高校的单片机教学依然
股票是市场经济的产物,从诞生的那天起就牵动着数以千万投资者的心。股票投资的收益与风险往往是成正比的,即投资收益越高,可能冒的风险越大。个人投资者和机构投资者时刻关心股
近年来,随着多媒体技术和互联网的飞速发展,产生的数字图像数量正以惊人的速度增长。这些图像在军用及民用各个领域都有着重要的作用。如何对图像进行有效的检索,已成为国际
随着市场竞争的日益激烈,面向顾客订货的、多品种、小批量生产己经成为21世纪的主导生产模式。相应地,制造企业正向着精益生产和敏捷制造的方向发展。在这种生产环境下,如何安排
随着互联网技术的迅速发展,网络上的资源日益丰富,各类搜索引擎应运而生,并迅速发展壮大。以百度,Google为代表的综合性搜索引擎搜索范围几乎涵盖了各个领域。但是,这些综合
计算机网络和多媒体技术的飞速发展,使得企业对于过程工业监测这一生产环节中的重要一环提出了越来越高的要求。研究并建立一套现代的过程工业监测平台,对生产过程的进行实时
自动程序设计一直是计算机科学的一个奋斗目标,而算法[1]是程序的灵魂,是解决问题的关键,是程序设计的基础和难点,要实现程序设计的自动化首先应该实现算法设计的自动化。但