基于大型数据库的决策树算法研究与实现

来源 :贵州大学 | 被引量 : 2次 | 上传用户：hongchaozhang88

【摘要】

：

在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析，并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛

【作者】

：

常慧

【机构】

：

贵州大学

【出处】

：

贵州大学

【发表日期】

：

2007年01期

【关键词】

：

数据挖掘决策树视图 SQL

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数据挖掘和机器学习领域中分类是一项非常重要的基本任务。它能对大量有关数据进行学习和分析，并建立相应问题领域中的分类模型。该技术在科学、通讯、金融等领域均有着广泛的应用。决策树分类方法作为分类知识发现的一种非常重要方法，它具有良好的可解释性、分类速度快、分类性能优越，因此，研究决策树分类器算法逐渐成为一个活跃的研究领域。最为典型的决策树分类器学习算法是ID3算法，它采用自顶向下分而治之的策略，利用信息增益的标准选择分裂属性，能保证构造出一棵简单的树。但是它只能处理枚举型属性，不能解决过适应问题。C4．5算法很好地扩展了ID3算法，它将分类领域从枚举型属性扩展到连续值属性，同时采用剪枝策略很好地解决了过适应问题。目前它已成为现在公认的性能较优的决策树分类器算法。在实际应用中，我们所构建的决策树通常是基于大型数据库中的海量数据，如何将决策树的构建与数据库技术充分结合起来仍是一个值得研究的问题，为此，很多以前提出的算法被重新研究和拓展。本文研究了决策树构造与数据库技术紧密结合的可扩展的分类算法。利用SQL语言实现数据预处理和属性度量计算，在关系数据库中实现决策树存储表示。本文还提出了决策树构造所需的训练集通过数据库中的视图来定义，并且对于划分训练集所形成的子集，依然是通过嵌套视图的方法定义；在构造树的过程中，通过数据库系统的SQL语言实现主要的计算任务。基于视图的分类算法充分利用了现有大型数据库的强大处理能力，并且易于实现。本文的最后通过以KDD CUP 2004的比赛数据为试验对象，将数据加载到关系数据库中，通过SQL语言实现了数据的预处理、决策树的构造和存储，验证了利用大型数据库本身的处理能力构造决策树的可行性和有效性。

其他文献

秦阿房宫数字文化遗产再现技术研究

随着网络和多媒体技术的飞速发展，数字文化遗产再现技术工作日益深入。著名的秦阿房宫建筑一般仅仅是以古画和文史资料的形式呈现在我们面前，并不能让我们在真实的场景内任意漫

学位

虚拟现实秦阿房宫遗产再现文化遗产

基于新型分簇算法的Ad Hoc组合QoS路由协议——Hi-ACQoS-TORA

Ad Hoc组合QoS分层路由协议——Hi-ACQoS-TORA，是一种组合Qos路由算法。Hi-ACQoS-TORA建立在均匀、有效的分簇算法的基础之上，簇内使用蚁群算法完成多指标的QoS路由，簇间使用简

学位

自组网服务质量分簇算法路由协议簇内路由簇间路由蚁群算法Ad Hoc网络

灵活图规划框架下的时序规划算法研究

智能规划是人工智能的重要研究领域之一。1995年Blum和Furst提出了一种基于规划图的快速规划方法——图规划,第一次采用图的方式来解决规划问题,在智能规划领域中取得了革命

学位

智能规划图规划灵活规划时序规划持续动作

支持IPv6的远程虚拟实验系统架构研究

现代远程教育是正规学校教育的重要补充手段，其市场需求十分强烈。随着中国IPv6网络的普及，更是迫切需要支持下一代互联网的远程教育软件系统的应用。电子电路课程的远程实验教

学位

远程虚拟实验IPv6ApacheSpice

IEEE迷宫电脑鼠的设计与研究

电脑鼠是众多机器人中的一种，它在驱动、传感器和控制系统的帮助下能够自主求解迷宫。在当今智能化社会的发展趋势下，电脑鼠不仅具有一定的比赛意义，还具有广泛的实用价值。其中

学位

电脑鼠迷宫红外测距运动控制路径规划A*算法

组合频率约简及动态约简对不一致决策表分类的方法

粗糙集(Rough Set，RS)理论，是继概率论、模糊集理论、证据理论之后的又一种新的处理不确定性信息的数学方法，能有效地分析和处理不精确、不完整、不一致等各种不完备数据，并从中

学位

不一致决策表粗糙集频率约简动态约简分类

基于UML的ERP库存管理系统研究与应用

ERP(Enterprise Resources Planning，企业资源计划)是20世纪90年代发展起来的综合企业管理信息系统。它代表了未来企业管理的发展方向和必然趋势。世界上有很多企业成功实施了

学位

企业资源计划统一建模语言库存管理管理信息系统软件开发

基于MPLS实现网络服务质量新机制的研究

服务质量(QoS)是一个综合指标，用于衡量使用一个服务的满意程度。目前随着随着Internet规模的不断增长和多媒体业务的大量涌现，IP网上出现了大量的实时业务。由于实时业务对网

学位

QoS区分服务MPLSIPv6保护切换

基于Minicore操作系统的跟踪调试环境的设计与实现

跟踪调试是定位程序中的错误并修正其错误的过程，是软件开发中必不可少而耗时甚大的环节。从上层看，操作系统是一个功能的集合，其中跟踪调试环境是为上层应用程序提供的一组

学位

Minicore操作系统服务体执行流模型跟踪调试环境软件开发任务跟踪模型

基于反射机制的构件化嵌入式操作系统

近年来，随着构件化嵌入式操作系统的迅速发展，构件的灵活性、构件运行的性能、构件对资源的利用率等方面的问题变得越来越突出。对此我们在构件化嵌入式操作系统Pcanel的微内核

学位

反射机制构件化嵌入式操作系统反射式中间件活动管理器空间管理器

基于大型数据库的决策树算法研究与实现

与本文相关的学术论文