论文部分内容阅读
如今的社会已经步入了一个高度信息化的时代,每天都会出现海量的信息,如何从这些海量的数据中提取有用的信息,来创造价值,就成为了一个关键问题。数据挖掘建立在对数据研习的基础上,并从中提取有用的信息来辅助决策。近几年来,数据挖掘技术也受到了经济领域和数据库界的共同关注,是数据库和信息决策领域前沿的研究方向之一。数据挖掘研究应用的领域和方法众多,常用的挖掘技术有:统计学、机器学习、信息科学。现已经逐步覆盖人工智能、神经网络、模糊集理论、粗糙集理论等学科技术,并在金融、证券、电信等领域得到广泛应用。
论文在介绍此课题的研究背景、意义及国内外的发展现状后,进一步阐述了数据挖掘的基本理论,研究比较了不同的数据挖掘分类算法,并在此基础上,重点分析属于机器学习范畴的决策树理论和基本的算法。由于决策树算法有多种,论文将重点研究CART 算法,此算法是一种非参数的统计方法,主要用来进行分类研究,并且可以同时处理连续变量和分类变量,分析完此算法的整个过程及优劣势后,文章将对该算法施行改进策略,并对银行信用卡行业中的潜在客户识别问题进行实证研究,在德国某银行的部分客户注册信息的基础上,利用改进的CART算法建立识别模型,并对模型结果进行分析,从而确定潜在客户的特征及其衡量变量,如果能对这些客户进行有针对性的营销工作,那么,无论是银行还是客户都会从中受益很多。