决策树ID3分类算法的研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:woai894781693
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的以及有潜在应用价值的信息或模式的过程。它融合了数据库、人工智能、机器学习等多个领域的理论和技术。分类分析是数据挖掘技术研究的一个重要方向。数据挖掘中分类算法在商业应用最为广泛,而决策树算法又是数据挖掘分类的核心技术算法之一。Quinlan于1986年提出的ID3算法在决策树算法中最为著名。本文主要研究决策树ID3算法及其改进算法。   本文首先详细地介绍了ID3算法,然后对其进行了深入的研究。ID3算法有两大缺点:第一,ID3算法由于使用log进行计算,所以运算起来并不简单;第二,算法往往偏向于选择取值较多的属性,而取值较多的属性却不总是最优的属性。其次,为了解决ID3算法运算复杂的缺点,引入麦克劳林公式,在ID3算法的基础上提出了ID3简化算法,使运算变得简洁;为解决ID3算法偏向于选择取值较多的属性的不足,通过使用数据结构中的二叉树来存储决策树,在ID3算法基础上提出了将ID3简化算法与普通二叉树算法相结合的ID3简化算法的二叉树存储算法。   通过研究算法,使用Visual studio2010开发了两个版本的算法演示系统:C#语言开发的winform版本ID3算法演示系统和使用微软Silverlight技术开发的跨平台的ID3算法演示系统。前者提供两种数据源选择方式,文本数据源只支持离散型的数据,而SQL数据源既支持离散型数据,又支持非离散数据(需要预处理,转换成离散数据)。后者只支持文本型的离散型数据。在本文中,提供了户外运动和学生综合评价两个实例。通过手动计算,算出实例对应的决策树,然后利用所开发的算法演示系统,导入实例数据,自动生成决策树,与手动计算生成的决策树进行对比,经对比,结果比较符合理想。
其他文献
在传统机器学习研究中,学习对象仅由一个类别标记来描述其语义概念。而在许多实际应用中,学习对象往往同时与多个语义概念相关联。多标记学习是研究此类任务的一种学习框架,并已
星载合成孔径雷达(Synthetic Aperture Radar,简称SAR)是一种工作在微波波段的主动式遥感器,因其具有不受日照和天气条件限制并对某些地物具有一定穿透能力的特点,现在已在对地
保证电路的“时序安全”-电路中时序路径的时延变化不引起同步失效-是确保电路可靠工作的基本条件之一。然而,随着制造工艺持续向纳米尺度推进,确保时序安全变得愈发困难和代价
频度、匀度和信息熵是语言的计量研究中极为重要的指标,本文对均方匀度、熵匀度和均根匀度进行了系统的比较研究,并针对均根匀度进行了深入的探索,得到了二元均根匀度和多元均根
学位
随着集成电路制造工艺进入纳米级,高性能微处理器的物理设计面临着越来越多的挑战:不断增加的工艺、电压、温度的在片波动,超大的设计规模,高主频、低功耗的设计要求。这些挑战正
本文首先说明了当前网站安全的严峻形势——网页篡改事件发生的数量剧增,再分析了传统的网站安全配置在防范网页篡改时表现出来的越来越明显的不适应性,接着分析了当前网页防
矢量场可视化是科学计算可视化领域中最具挑战性的研究课题之一,它以直观的图形图像显示矢量场的运动,使人们以直观形象的方式解释理解抽象科学数据中所包含的客观规律。线积
随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的
随着信息化技术的发展,对科技项目的管理系统,在安全性,高效性,可复用性,可维护性,开发周期等方面都有很高的要求,因此使用良好的体系结构和框架是系统开发的首要问题。本文
地球上现存的植物种类大约有50多万种,分为原核、藻类、粘菌、真菌、苔藓、蕨类、种子植物等几大类群。植物生长状况与周围的环境因素有着密切的联系,其中光照强度、空气温度、