论文部分内容阅读
数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大量数据中提取出可信、新颖、有效并易于理解的知识、规律和高层信息。发现的知识可用于决策、过程控制、信息管理、查询处理等方面,因此数据挖掘的技术和应用有了飞快的发展。
分类是数据挖掘中的一个重要部分。分类的目的是学会一个分类函数或分类模型,也常常称作分类器。该模型能把数据库中的数据项映射到给定类别中的某一个。分类可用于预测,分类的输出是离散的类别值。
分类的方法很多,其中决策树是一种最常用的算法。与其他分类算法相比,他能够较快的建立简单、易于理解的模型,容易转换成规则,而且具有与其他分类模型同样的甚至更好的分类准确性。
高速可伸缩分类算法(FSCA)是我设计的一种数据挖掘算法。他通过预排序技术,着重解决当训练集数据量巨大,无法全部放入内存时,如何高速准确地生成决策树,能同时处理离散字段和连续字段。