论文部分内容阅读
随着企业信息化建设,数据仓库和决策支持系统技术在企业中得到了空前的应用。如何将决策支持系统中的数据挖掘方法应用到企业中成为了研究的重点。论文主要是围绕数据挖掘分类算法中的决策树算法的关键技术展开研究的。本文首先对决策树分类算法做了一个综述。对典型的决策树分类算法的主要特性,优缺点,适用范围,目前的改进状况,决策树算法的应用和展望进行了简要的概述。随着数据处理技术的飞速发展,需要处理的数据规模越来越大,已经从最初的小型数据库发展到现在大型数据库,数据仓库等。这时有效性、正确性和空间性就成为了数据挖掘中主要考虑的特性。在对典型决策树分类算法的研究后,将抽样技术引入到决策树算法C4.5中,使得这种对小数据集有效的算法也能在给定大数据集的情况下挖掘出有一定正确性的分类规则。选择UCI机器学习库的标准数据库为数据源,使用改进的基于抽样的决策树C4.5算法进行分类规则的挖掘。试验表明该方法能在获得满意的正确性的情况下显著的提高数据挖掘的效率。紧接着结合一个钢铁企业的应用背景,将改进的算法应用在了两个大的方面:钢铁企业生产成本关键工序分析和钢铁企业亏损品种分析。第一个应用以工艺路线为切入点,结合钢铁企业的成本分析项目,对生产成本关键工序进行数据仓库建模。采用改进的基于抽样技术的决策树C4.5算法对海量数据进行挖掘,挖掘出工艺路线中的关键工序,影响钢铁企业成本的分类规则。第二个应用结合钢铁企业的销售亏损品种分析项目,对亏损品种分析进行数据仓库建模,挖掘出钢铁企业亏损品种分析的关键影响因素。两个应用为钢铁企业的成本管理提供了科学依据,同时为数据挖掘系统的建立提供了很好的经验。