论文部分内容阅读
信息技术发展的浪潮使人们进入到了信息爆炸的时代,海量信息需要人们去处理与应用。数据处理已经不是信息技术的重点,代之而来的是如何充分使用这些信息。现在众多的企业都进行着信息化建设,随着企业信息化的不断深入,人们对企业数据进行整合与分析的需求也更加强烈,也越来越重视企业统一的数据仓库平台建设。因此如何建立高效的、企业级的数据仓库决定着企业信息化的成效。数据挖掘技术是20世纪90年代迅速发展起来的技术,能从企业的“数据海洋”中挖掘出有效的、具有潜在效用的规律或模式。利用数据仓库进行数据挖掘可以提高企业经营决策的正确性,大大提高企业的经济效益。
本文对数据仓库的建设与数据挖掘的技术进行了深入研究,并在某钢铁企业具体实现了建立数据仓库的步骤、挖掘出有益的结论。我们实现了建立数据仓库的一个完整循环,为钢铁企业甚至别的行业建立数据仓库提供了宝贵的经验。钢铁企业的生产具有连续性、业务逻辑复杂、数据量大等特点,对数据分析的实时性要求也比较高;针对这种具体的企业特点与需求,提出了建立具有ODS层的数据仓库体系架构。数据仓库的建设中,数据质量是关键的问题,为此我们将传统的ETL三个步骤扩展为ECCD四个步骤,为提供高质量的数据打下了坚实的基础。在详细分析了数据仓库ETL的构建过程、数据清洗的原理及其设计要点的基础上实现了从数据源系统中抽取数据、经过清洗、整合处理,最后加载到数据仓库中的完整过程。在对数据挖掘的现状与功能的分析的基础上,总结了数据挖掘需重点开展的工作。并利用K-means聚类算法对客户进行了聚类分析,为企业的营销提供了技术支持,并带来了巨大的经济效益。