论文部分内容阅读
数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从数据库中提取出可信、新颖、有效并易于理解的知识、规律或高层信息。发现的知识可用于决策、过程控制、信息管理、查询处理等方面,因此数据挖掘的技术和应用有了飞快的发展,正日益引起国内外学术界和产业界的广泛关注。 数据分类是数据挖掘中一个重要的内容。分类的方法很多,其中决策树是一种常用的算法。与其他分类算法相比,它能够较快的建立简单、易于理解的模型,容易转换成规则,而且具有与其他分类模型同样的,有时甚至更好的分类准确性。 本文主要对决策树分类算法展开研究,主要包含两个内容: 1.研究了SLIQ算法和SPRINT算法。因为这两个算法可以说是目前决策树算法中最有效的。其中主要对两个算法分别在串行、并行情况下的执行时间进行了分析、比较,得出了一些建设性的结论。 2.对SLIQ算法和SPRINT算法进行了改进。目前这两种算法所处理的都是固定大小的训练集。将增量式学习的方法与建树算法相结合,使其能够处理不断生长的训练集,提高算法的实时、有效性。本文还证明了改进算法的正确性。