论文部分内容阅读
目前,银行业竞争非常激烈,各银行都积累了自己大量的客户信息资源,准确可靠的客户信息,对银行这样的企业来说,是很重要的。银行中的这些数据源存在于不同数据库中和文件中,而这些数据库和文件可能存在于不同的硬件平台上的不同操作系统中,因而从这些异构的数据源导入到数据仓库的数据中会存在很多数据质量问题。数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合[11,它是决策支持的基础,数据仓库中数据的正确性对于避免做出错误的决策是至关重要的。数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败,因此,数据清洗显得至关重要。因而有必要对数据进行清洗,以便得到客户的真实信息。有了准确的客户信息,那么对客户资源管理效率会有很大提高。同时,准确的客户信息也是挖掘VIP客户的数据基础。本文对数据清洗、数据挖掘的概念、方法及其国内外研究现状进行了较全面的描述,并简要介绍了银行数据仓库的体系结构。对数据清洗技术和数据挖掘技术的原理、方法、以及基本流程进行了分析。数据清洗方面,本文首先介绍了数据清洗的相关知识和清洗原理,对银行数据仓库构建过程中的数据清洗进行了深入研究,分析和比较了相似重复记录清洗的临近排序算法、多趟邻居排序算法和优先队列算法,并提出了适合于银行相似重复记录的清洗方法。数据仓库和数据挖掘方面,首先说明了什么是数据仓库,并介绍了银行数据仓库的的体系结构。然后详细介绍了数据挖掘的定义和主要挖掘算法,并重点研究了决策树分类算法中的C4.5算法在银行数据挖掘中的应用。最后,根据银行客户价值指标和客户筛选评价规则,用C4.5分类算法建立客户分类预测模型。实验证明,用C4.5算法建立的客户分类模型预测效果非常好。论文最后,总结了本文的研究工作,并展望未来的研究。