银行数据仓库构建过程中的数据清洗及VIP客户的挖掘

被引量 : 0次 | 上传用户:szm2009szm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,银行业竞争非常激烈,各银行都积累了自己大量的客户信息资源,准确可靠的客户信息,对银行这样的企业来说,是很重要的。银行中的这些数据源存在于不同数据库中和文件中,而这些数据库和文件可能存在于不同的硬件平台上的不同操作系统中,因而从这些异构的数据源导入到数据仓库的数据中会存在很多数据质量问题。数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合[11,它是决策支持的基础,数据仓库中数据的正确性对于避免做出错误的决策是至关重要的。数据质量是商业智能的基础,数据质量的好坏直接影响到商业智能的成败,因此,数据清洗显得至关重要。因而有必要对数据进行清洗,以便得到客户的真实信息。有了准确的客户信息,那么对客户资源管理效率会有很大提高。同时,准确的客户信息也是挖掘VIP客户的数据基础。本文对数据清洗、数据挖掘的概念、方法及其国内外研究现状进行了较全面的描述,并简要介绍了银行数据仓库的体系结构。对数据清洗技术和数据挖掘技术的原理、方法、以及基本流程进行了分析。数据清洗方面,本文首先介绍了数据清洗的相关知识和清洗原理,对银行数据仓库构建过程中的数据清洗进行了深入研究,分析和比较了相似重复记录清洗的临近排序算法、多趟邻居排序算法和优先队列算法,并提出了适合于银行相似重复记录的清洗方法。数据仓库和数据挖掘方面,首先说明了什么是数据仓库,并介绍了银行数据仓库的的体系结构。然后详细介绍了数据挖掘的定义和主要挖掘算法,并重点研究了决策树分类算法中的C4.5算法在银行数据挖掘中的应用。最后,根据银行客户价值指标和客户筛选评价规则,用C4.5分类算法建立客户分类预测模型。实验证明,用C4.5算法建立的客户分类模型预测效果非常好。论文最后,总结了本文的研究工作,并展望未来的研究。
其他文献
本论文以Bachman为代表的交际语言测试理论为基础,采用文献法、比较法和问卷调查法,考查福建省高考英语考试与美国新托福考试各自考试题型发展概况与特点。通过对比两种考试
方方作为在中国当代文学史上有成就的女性作家之一,其作品多角度多侧面的反映了当代女性的生活及生存状况。本文旨在从女性主义的研究角度入手,对方方的小说创作进行整体性的
在我国典型半湿润偏干旱的山西寿阳试验区,通过16年的长期定位试验,研究了不同秸秆还田方式对土壤硝态氮空间分布与累积的影响。结果表明,秸秆还田可以有效提高作物产量,同时
我国农业企业大部分起源于家庭作坊或村办小厂,其创立者多为农民出身。由于管理者自身文化素质与管理水平的限制,很多农业企业发展到一定阶段就很难再有突破,这与农民企业家
<正>正常麻核桃的外观颜色是均匀一致的,如果出现连片的不规则的表面颜色变浅就叫麻核桃花皮。如果只是缝合线的尖部出现颜色变浅叫白尖。有时花皮与白尖同时出现并连在一起
"先看病后付费"作为一种新的诊疗模式,标志着公立医院转变服务理念,体现着公益性本质的回归。该文从卫生服务的可及性和公平性、卫生服务的适宜性以及卫生服务的质量和效率等
高职院校培养目标的职业针对性、实用性比较强,客观上要求学生对所学专业进行准确的定位,增强自身对专业的认同。高职院校学生专业认同程度关系到专业的良性发展和学业的顺利
<正>随着人们生活水平的提高,麻核桃的保健功用愈来愈受到人们的青睐,致使麻核桃市场日趋繁荣。麻核桃苗木,尤其是大规格苗木十分走俏,为满足市场需求,尽快掌握快速繁育麻核
短文填词题在福建高考英语中占了10分的比例,它的重要性是显而易见的。因此,有必要从语言测试学的角度,依照普通高中英语课程标准,对福建省高考的短文填词题进行构念效度验证
数据质量事关党和政府的形象,事关政府决策的科学性,事关统计部门的声誉,数据质量是统计工作的生命,提高数据质量管理能力是统计工作者永恒的追求。2012年,国家统计局全面实