论文部分内容阅读
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是信息处理技术研究领域的一项重要课题。它是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的以及有潜在应用价值的信息或模式的过程。它融合了数据库、人工智能、机器学习等多个领域的理论和技术。分类分析是数据挖掘技术研究的一个重要方向。数据挖掘中分类算法在商业应用最为广泛,而决策树算法又是数据挖掘分类的核心技术算法之一。Quinlan于1986年提出的ID3算法在决策树算法中最为著名。本文主要研究决策树ID3算法及其改进算法。
本文首先详细地介绍了ID3算法,然后对其进行了深入的研究。ID3算法有两大缺点:第一,ID3算法由于使用log进行计算,所以运算起来并不简单;第二,算法往往偏向于选择取值较多的属性,而取值较多的属性却不总是最优的属性。其次,为了解决ID3算法运算复杂的缺点,引入麦克劳林公式,在ID3算法的基础上提出了ID3简化算法,使运算变得简洁;为解决ID3算法偏向于选择取值较多的属性的不足,通过使用数据结构中的二叉树来存储决策树,在ID3算法基础上提出了将ID3简化算法与普通二叉树算法相结合的ID3简化算法的二叉树存储算法。
通过研究算法,使用Visual studio2010开发了两个版本的算法演示系统:C#语言开发的winform版本ID3算法演示系统和使用微软Silverlight技术开发的跨平台的ID3算法演示系统。前者提供两种数据源选择方式,文本数据源只支持离散型的数据,而SQL数据源既支持离散型数据,又支持非离散数据(需要预处理,转换成离散数据)。后者只支持文本型的离散型数据。在本文中,提供了户外运动和学生综合评价两个实例。通过手动计算,算出实例对应的决策树,然后利用所开发的算法演示系统,导入实例数据,自动生成决策树,与手动计算生成的决策树进行对比,经对比,结果比较符合理想。