基于数据挖掘的决策树算法研究及应用探讨

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:haolei88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树是建立在信息论基础之上,对数据进行分类挖掘的一种方法。其基本思想是,通过一批已知的训练数据建立一棵决策树,然后利用建好的决策树,对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。决策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。至今已经提出了决策树的很多算法,通过分析已知的分类信息得到一个预测模型。根据需要挖掘信息的类型和特点,需要运用不同的分类方案,用最合适和优化的算法来满足信息挖掘的需求,这就是本文的着眼点和主要研究内容。 本文列举了经典ID3算法和知识优选策略的应用实例。信息增益的属性递归优化方法首次应用到高考招生测评的数据挖掘中,并且将属性递归优化算法根据实际需要在高考招生测评工作中进行了测试。这个是一个新领域的应用,此种应用尚属首例。 本文首次提出了结合ID3算法的知识优选策略的属性递归优化算法。试验表明,该算法对ID3算法有所改进,并且生成的决策树是二叉树。所以我们自然地将两者结合起来,发挥各自的优势,从而得到一个性能良好的优化算法。 通过比较属性递归优化方法与知识优选策略的结合的新算法与经典ID3算法构造的决策树,我们发现新的改进算法的决策树更加简洁、更接近于理想的决策树。
其他文献
语义Web的发展使得其逻辑基础描述逻辑也成为研究的一个热点。描述逻辑支持推理,其推理主要涉及如下问题:概念可满足性(Concept Satisfiability),包含关系(Subsumption),可满足性
当前,随着网络迅速的发展,网络上资源越来越丰富,Web上的数据日趋成为当前数据的主流,Web环境下的数据集成已经成为集成领域的研究热点。目前这一领域的研究,已经利用XML解决了Web
数字签名技术是提供认证性,完整性和不可否认性的重要技术,是信息安全的核心技术之一。盲签名作为一种具有特殊性质的数字签名,由于待签名的消息对于签名者是保密的,所以它在匿名
XML的全称是eXtensible Markup Language(可扩展标识语言)由于具有简单、可扩展、互操作性强,开放性强等特点,正迅速成为一种与技术无关的数据交换的标准和传输格式。鉴于XML在
产品结构管理技术的发展融合于产品数据管理技术(product data management)的发展之中,产品数据管理技术出现于20世纪80年代初期,从开始的工程图档管理逐渐扩展,迅速成为一门
电力负荷管理系统是运用通信技术、计算机技术、自动控制技术对电力负荷进行监控、管理的综合管理信息系统。随着电力负荷管理系统应用的不断深入,负荷管理具有图形系统、数据
Client/Server结构是近几年非常流行的一种分布式计算模式,它的优势在于广泛地采用了网络技术,将系统中的各部分任务分配给网络中担任不同角色的计算机。然而在分布式环境下,
近年来对网络业务流量的测量和分析表明,网络业务是自相似(分形)的。网络业务的自相似特性对网络的分析、设计、控制和性能评价等均具有重大的影响。本文介绍了自相似的常见
随着计算机网络技术和多媒体技术的发展,流媒体正成为互联网应用的主体,推动了互联网整体架构的革新,拉动信息经济的发展,在互联网媒体传播方面起到了主导的作用。各种多媒体应用
随着网络以及多媒体技术的迅速发展,涌现出了大量的数字视频,如新闻、广告、娱乐节目、个人自制视频等。在快节奏的现代社会里,数字视频的大量涌现引发了一个重要的问题,即如何快