论文部分内容阅读
近些年来,信用卡的使用范围越来越广泛,信用卡业带来的广阔商业机会背后,面临着巨大的危机。当前信息技术在中国的快速发展,企业积累了大量的业务数据,如何分析和利用这些数据,成为企业必须考虑的问题。传统的信用卡评级已经无法满足各个银行的需要,将用户的信用评级与数据挖掘技术相结合,融入专业的统计知识,已经成为银行信用评级业的需要。本文分析的数据来源于台湾一家银行,包含了客户的基本信息以及对信用卡是否违约给出了判断。文中使用了数据挖掘技术,分别采用决策树分类与支持向量机算法两种分类方法,对客户的基本信息以及过去六个月的信用款还款状态、帐单数、信用卡还款额记录进行的描述分析,分别构建决策树分类模型和支持向量机模型,将构建的模型与已有的目标变量对比,确定模型精度,将建立的分类模型用于以后的信用卡用户分类。决策树分类中使用了C5.0算法,与其它决策树分类算法相比较,它将样本集中不同类型的样本数量作为考虑因素,使用信息增益率作为分枝节点选择的标准;另一种支持向量机算法,采用VC维理论和结构风险最小化原则,与传统机器学习相比较,结构风险最小化不仅考虑到了经验风险,也考虑了置信风险。论文的最后,对比文中使用的两种方法,给出了不同情况下使用何种方法建模的判断依据。