基于大型数据库的决策树算法研究与实现

来源 :贵州大学 | 被引量 : 2次 | 上传用户:hongchaozhang88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析,并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用。决策树分类方法作为分类知识发现的一种非常重要方法,它具有良好的可解释性、分类速度快、分类性能优越,因此,研究决策树分类器算法逐渐成为一个活跃的研究领域。最为典型的决策树分类器学习算法是ID3算法,它采用自顶向下分而治之的策略,利用信息增益的标准选择分裂属性,能保证构造出一棵简单的树。但是它只能处理枚举型属性,不能解决过适应问题。C4.5算法很好地扩展了ID3算法,它将分类领域从枚举型属性扩展到连续值属性,同时采用剪枝策略很好地解决了过适应问题。目前它已成为现在公认的性能较优的决策树分类器算法。在实际应用中,我们所构建的决策树通常是基于大型数据库中的海量数据,如何将决策树的构建与数据库技术充分结合起来仍是一个值得研究的问题,为此,很多以前提出的算法被重新研究和拓展。本文研究了决策树构造与数据库技术紧密结合的可扩展的分类算法。利用SQL语言实现数据预处理和属性度量计算,在关系数据库中实现决策树存储表示。本文还提出了决策树构造所需的训练集通过数据库中的视图来定义,并且对于划分训练集所形成的子集,依然是通过嵌套视图的方法定义;在构造树的过程中,通过数据库系统的SQL语言实现主要的计算任务。基于视图的分类算法充分利用了现有大型数据库的强大处理能力,并且易于实现。本文的最后通过以KDD CUP 2004的比赛数据为试验对象,将数据加载到关系数据库中,通过SQL语言实现了数据的预处理、决策树的构造和存储,验证了利用大型数据库本身的处理能力构造决策树的可行性和有效性。
其他文献
随着网络和多媒体技术的飞速发展,数字文化遗产再现技术工作日益深入。著名的秦阿房宫建筑一般仅仅是以古画和文史资料的形式呈现在我们面前,并不能让我们在真实的场景内任意漫
Ad Hoc组合QoS分层路由协议——Hi-ACQoS-TORA,是一种组合Qos路由算法。Hi-ACQoS-TORA建立在均匀、有效的分簇算法的基础之上,簇内使用蚁群算法完成多指标的QoS路由,簇间使用简
智能规划是人工智能的重要研究领域之一。1995年Blum和Furst提出了一种基于规划图的快速规划方法——图规划,第一次采用图的方式来解决规划问题,在智能规划领域中取得了革命
现代远程教育是正规学校教育的重要补充手段,其市场需求十分强烈。随着中国IPv6网络的普及,更是迫切需要支持下一代互联网的远程教育软件系统的应用。电子电路课程的远程实验教
电脑鼠是众多机器人中的一种,它在驱动、传感器和控制系统的帮助下能够自主求解迷宫。在当今智能化社会的发展趋势下,电脑鼠不仅具有一定的比赛意义,还具有广泛的实用价值。其中
粗糙集(Rough Set,RS)理论,是继概率论、模糊集理论、证据理论之后的又一种新的处理不确定性信息的数学方法,能有效地分析和处理不精确、不完整、不一致等各种不完备数据,并从中
ERP(Enterprise Resources Planning,企业资源计划)是20世纪90年代发展起来的综合企业管理信息系统。它代表了未来企业管理的发展方向和必然趋势。世界上有很多企业成功实施了
服务质量(QoS)是一个综合指标,用于衡量使用一个服务的满意程度。目前随着随着Internet规模的不断增长和多媒体业务的大量涌现,IP网上出现了大量的实时业务。由于实时业务对网
跟踪调试是定位程序中的错误并修正其错误的过程,是软件开发中必不可少而耗时甚大的环节。 从上层看,操作系统是一个功能的集合,其中跟踪调试环境是为上层应用程序提供的一组
近年来,随着构件化嵌入式操作系统的迅速发展,构件的灵活性、构件运行的性能、构件对资源的利用率等方面的问题变得越来越突出。对此我们在构件化嵌入式操作系统Pcanel的微内核