论文部分内容阅读
【摘 要】针对我国住房贷款担保公司信贷资产质量下降和风险加大的客观情况,本文利用Apriori算法对住房贷款担保公司个人信贷数据进行了关联分析,分析和挖掘出客户数据中属性的频繁模式和关联关系。分析结果表明,收入、教育水平、职业和贷款利率是影响住房贷款客户信用等级的四个重要依据,担保公司在评估一个新客户的信用风险等级时,要重点考虑和评估这四个因素。
【关键字】住房贷款;信用等级;风险分析;关联规则;Apriori算法
一、绪论
近年来,信贷资产质量下降日趋成为住房贷款担保行业一个亟待解决的重要问题。因而,针对我国住房贷款担保公司信贷资产质量下降和风险加大的客观情况,建立完善的信用风险管控机制已成为刻不容缓的任务。大量研究表明,分析影响贷款客户信用等级的因素,在贷款前对客户进行信用评估是降低住房貸款担保公司风险的有效方式。随着科技的发展,住房置业担保公司积累了大量的贷款客户数据,建立了相应的数据仓库。并基于该数据仓库,利用数据挖掘、大数据分析和可视化等技术,逐步展开分析,以期挖掘和分析出数据中隐含的、有价值的信息,并基于此建立客户信用评估指标和模型,以指导对未来贷款客户信用的风险评估和决策。
关联规则是数据挖掘技术的一种经典方法,其可用于从大量数据中分析和挖掘出属性之间的关联和相关联系。本文利用关联规则分析方法:Apriori算法,对某住房贷款担保公司个人信贷数据进行分析,得出与信用等级最为相关的客户信息。通过Apriori算法的关联分析,本文从实际贷款客户数据集中,挖掘、分析出信用等级和客户属性之间的关系特征;然后,基于这些规则建立风险评估模型,并预测新的客户样本数据的信用风险。由于规则来源于实际数据,因此挖掘到的规则具有良好的客观性和准确性,可以作为预测和分析贷款客户信用等级的决策依据。
二 、Apriori算法
数据挖掘技术中的关联规则方法,主要是用于挖掘发现大量数据中项集之间的关联或相关联系。在现实世界中,一件事情的发生,在很大概率上,也会引起另外一件事情的发生。或者说,这两件事情是是相互关联的,在很多时候常常会一起发生。那么人们通过分析,可以发现得到相关两件事情间的这种关联规则。可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展、动向等等。这种过程就是关联规则分析。常用的关联规则的算法有算法、算法等。
本文主要是运用算法实现对数据的分析:算法是一种最为常用的挖掘布尔关联规则的算法。主要步骤如下:(1)输入数据集,并计算含有一个元素的项目集出现的频率,找出那些大于最小支持度的项目集,得到一维最大项目集,生成一维频繁集。(2)进行连接运算,生成二维候选集;再根据预先给定的最小支持度,生成二维频繁集。(3)重复上述过程,直到生成M维频繁集,并且不能再生成满足最小支持度的项目集。在以上过程中需要注意:若存在维候选集,其中某个元素的子集不是维频繁集,则该候选集将被删除。
本文中所涉及的通过算法所建立的住房置业客户信用关联模式,是通过对实际用户的具体数据进行分析,分析和建立客户各个属性与信用等级之间的关系,挖掘出对信用最用重要的指标因素,建立贷款用户信用等级的客观评价指标模型,以方便的为解决同样的问题提供快速的分析结果,帮助住房置业担保企业做出更科学、更合理的决策。
三、基于Apriori算法的客户信用大数据关联分析
就目前而言,在金融行业企业中,尤其是住房贷款担保公司需要成功预测贷款客户的信用等级。一旦获得了用户信用等级的准确信息,住房贷款担保公司就可以发现信用等级较低的用户,从而改善自身的决策,拒绝为信用等级较低的客户做信用担保。从而规避由于客户延期还款、恶意欠款而带来的担保公司的经济损失。目前市场上同类型的系统缺乏,应用还不广泛,住房担保公司还是通过经验来判断客户的信用等级,十分不科学。需要能够判断用户信用等级的软件来帮助住房贷款担保公司来做出正确的决策。
(一)数据预处理
住房担保数据挖掘系统需要实际应用在住房置业担保公司中,因此,本文所采用的数据集为担保公司近十年来在经营过程中所积累的用户数据。该数据集的数据量规模较大,能够真实的体现住房置业担保公司客户的实际信用情况。但是,由于实际经营中获取的数据存在一定程度的冗余信息,不是全部内容都对关联分析有意义,因此,一开始需要对数据集进行数据预处理操作。数据预处理是一个关键而繁琐的过程,处理结果的好坏直接影响后续关联分析的运行速度和准确性。本文的数据预处理操作主要从以下几个方面进行。
1.去掉无关的属性。现有数据库中客户的属性多达数十个,本文通过深入分析发现,部分属性与个人信用评估关系不大。例如,姓名、现住地址、购房地址、手机号码、单位名称、合同编号等属性明显对于数据分析意义不大。因此,为提高关联分析的效率,本文把这些属性直接从数据表中删除。
2.选取属性。根据用户属性与用户信用等级的相关性,本文选取了性别、月收入、学历、房屋价格、房源、贷款利息、还款方式、贷款时间、客户级别八个属性进行关联分析。
3.属性量化。为减少计算的复杂程度,简化系统的结果,要对有关属性进行量化处理。在上述八个属性中,五个属性为量化属性,包括性别、学历、房源、贷款利息、还款方式、客户级别。为了方便进一步分析,本文对月收入、房屋价格、贷款时间三个属性根据以下条件进行量化,具体如下:①月收入的量化。如果“月收入>=5000”,则量化结果为高;如果“月收入<5000”,则量化结果为低。②房屋价格量化。如果“房屋价格>200万”,则量化结果为高;如果“100万<房屋价格<200万”,则量化结果为中;如果“房屋价格<100万”,则量化结果为低。③贷款时间量化。如果“贷款时间>5年”,则量化结果为长;如果“1年<贷款时间<5年”量化结果为中;如果 “贷款时间<1年”,量化结果为短。 4.数据抽取。本文进行关联分析所用的数据集,是住房置业担保公司所提供的真实数据,共包含65536条数据。每条数据包含多个属性,具体如下:gender代表住房贷款担保客户的性别;monthly_income2代表客户的月收入;education代表客户的受教育程度;house_totle_cost代表房屋的总花费,jf代表购买房源的类型;bank_loan_interest_rate代表银行贷款利率;repayment_type代表还款方式;loan_duration代表贷款期限;kehujibie2代表客户的信用级别。
(二)关联分析
本文采用weka软件系统,对贷款客户信用数据进行关联分析,运行结果如图1所示:
图1关联分析结果
从关联分析结果可以得出以下结论。
1.贷款客户的信用等级状况与其收入状况(主要是指收入水平、和收入稳定性)密切相关。贷款人的收入水平越高、收入来源越稳定,其所具有的信用等级越高。可以说,收入稳定性和收入水平是衡量贷款客户还款信用的最重要指标。显然,本文衡量客户信用状况的收入是指其合法的收入。
2.贷款客户所受到的教育水平也是衡量其信用状况的一个重要指标。这时因为,在一般情况下,一个人的道德素养在很大程度上取决于其所受到的教育水平。教育程度良好的人会非常注重维护个人的信誉,更加遵守法律和道德规范。也就是说,这些人具备较高的自我约束能力,具有更好的信用度。相反,教育程度低的人往往会意识不到信用的重要性,继而比较缺乏信用意识,其违约还款的可能性会比较大。
3.就职状况与客户的信用相关。一方面,贷款客户所从事的职业的种类,直接决定着其收入的高低和收入的稳定性。另一方面,从事职业也在很大程度上影响着一个人的诚信。从事不同的职业,意味着其在住房公积金、福利、医疗失业保险、退休金等方面的待遇是不同的。因此,在客户还款信用评估中,职业状况也是一个重要指标。在评估过程中,公务员、教师、事业单位的优先级会比其它职业要高,这时因为这些行业的工资、待遇和工作稳定性更加有保障。并且,从事这些行业的人会更加重视诚实和信誉,具备更好的信用等级。除以上职业外,一般来说,从事垄断行业和成长期行业职工的也属于高收入水平且工作性质也相对稳定,因此在信用评估过程中,这些行业职工的信用等级也较高,
4.银行利率与还款信用相关。从以上的关联分析还可以看出,客户的还款信用等级与住房贷款的利率成反比。贷款利率越高,贷款客户的还款信用等级越低。反之,住房贷款的利率越低,贷款客户的还款信用等级就越高。这是因为,当贷款利率增加时,客户在贷款期间需要偿还的金额就越多,其偿还能力有可能不能满足偿还的要求。然而银行利率较低时,贷款客户所需要偿还的金额就比较少,信用等级会更高一些。
除上述的四个因素外,贷款客户的还款信用等级还受到以下多个指标的影响:总房价的高低、年龄、婚姻状况、以及个人所处社会环境、信用履历等。这些指标也为住房贷款担保公司做出决策起到一定的作用,在建立风险模式时要给予考虑。
四、 结论
针对住房贷款风险问题,本文利用算法对住房贷款担保公司个人信贷数据进行了分析,分析和挖掘出客户数据中属性的频繁模式和关联关系。分析结果表明:影响住房置业担保企业客户信用的最重要因素是贷款客户收入状况,主要是包括收入水平和收入稳定性两个指标。收入越高、稳定性越好的客户,其违约的风险越小,还款的信用等级会越高;其次,教育水平的高低是评估客户信用状况的一个重要因素,这是因为所受教育的水平,不仅决定了客户收入状况,还影响着其所具备的个人诚信观念。贷款客户所从事的职业也是评估贷款客户信用等级的一个重要因素。另外,银行的贷款利率水平也在一定程度上影响着客户偿还贷款的信用。可以说,收入、教育水平、职业和贷款利率是影响住房贷款客户信用等级的四个重要依据,担保公司在评估一个新客户的信用风险等级时,要重点考虑和评估这四个因素。本文的数据关联规则来源于实际数据分析,具有良好的客观性和准确性,可以作为预测和分析贷款客户信用等级的决策依据。
参考文献:
[1]于卓. 应用决策树构建个人住房贷款风险评估模型[D]. 东北财经大学, 2007.
[2]刘顺挺. 基于数据挖掘技术的个人信用评估模型[D]. 南京理工大学, 2007.
[3]金豆. 数据挖掘技术在资产管理系统中的应用[D]. 长春理工大学, 2010.
[4]张翠翠, 阮树骅. 用于短频繁项的隐私保护关联规则挖掘方法[J]. 电子科技, 2016(5):88-92.
[5]许丽莉, XuLili. 基于信用等级迁移和违约损失的贷款定价[J]. 湘南學院学报, 2016, 37(2):7-11.
【关键字】住房贷款;信用等级;风险分析;关联规则;Apriori算法
一、绪论
近年来,信贷资产质量下降日趋成为住房贷款担保行业一个亟待解决的重要问题。因而,针对我国住房贷款担保公司信贷资产质量下降和风险加大的客观情况,建立完善的信用风险管控机制已成为刻不容缓的任务。大量研究表明,分析影响贷款客户信用等级的因素,在贷款前对客户进行信用评估是降低住房貸款担保公司风险的有效方式。随着科技的发展,住房置业担保公司积累了大量的贷款客户数据,建立了相应的数据仓库。并基于该数据仓库,利用数据挖掘、大数据分析和可视化等技术,逐步展开分析,以期挖掘和分析出数据中隐含的、有价值的信息,并基于此建立客户信用评估指标和模型,以指导对未来贷款客户信用的风险评估和决策。
关联规则是数据挖掘技术的一种经典方法,其可用于从大量数据中分析和挖掘出属性之间的关联和相关联系。本文利用关联规则分析方法:Apriori算法,对某住房贷款担保公司个人信贷数据进行分析,得出与信用等级最为相关的客户信息。通过Apriori算法的关联分析,本文从实际贷款客户数据集中,挖掘、分析出信用等级和客户属性之间的关系特征;然后,基于这些规则建立风险评估模型,并预测新的客户样本数据的信用风险。由于规则来源于实际数据,因此挖掘到的规则具有良好的客观性和准确性,可以作为预测和分析贷款客户信用等级的决策依据。
二 、Apriori算法
数据挖掘技术中的关联规则方法,主要是用于挖掘发现大量数据中项集之间的关联或相关联系。在现实世界中,一件事情的发生,在很大概率上,也会引起另外一件事情的发生。或者说,这两件事情是是相互关联的,在很多时候常常会一起发生。那么人们通过分析,可以发现得到相关两件事情间的这种关联规则。可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展、动向等等。这种过程就是关联规则分析。常用的关联规则的算法有算法、算法等。
本文主要是运用算法实现对数据的分析:算法是一种最为常用的挖掘布尔关联规则的算法。主要步骤如下:(1)输入数据集,并计算含有一个元素的项目集出现的频率,找出那些大于最小支持度的项目集,得到一维最大项目集,生成一维频繁集。(2)进行连接运算,生成二维候选集;再根据预先给定的最小支持度,生成二维频繁集。(3)重复上述过程,直到生成M维频繁集,并且不能再生成满足最小支持度的项目集。在以上过程中需要注意:若存在维候选集,其中某个元素的子集不是维频繁集,则该候选集将被删除。
本文中所涉及的通过算法所建立的住房置业客户信用关联模式,是通过对实际用户的具体数据进行分析,分析和建立客户各个属性与信用等级之间的关系,挖掘出对信用最用重要的指标因素,建立贷款用户信用等级的客观评价指标模型,以方便的为解决同样的问题提供快速的分析结果,帮助住房置业担保企业做出更科学、更合理的决策。
三、基于Apriori算法的客户信用大数据关联分析
就目前而言,在金融行业企业中,尤其是住房贷款担保公司需要成功预测贷款客户的信用等级。一旦获得了用户信用等级的准确信息,住房贷款担保公司就可以发现信用等级较低的用户,从而改善自身的决策,拒绝为信用等级较低的客户做信用担保。从而规避由于客户延期还款、恶意欠款而带来的担保公司的经济损失。目前市场上同类型的系统缺乏,应用还不广泛,住房担保公司还是通过经验来判断客户的信用等级,十分不科学。需要能够判断用户信用等级的软件来帮助住房贷款担保公司来做出正确的决策。
(一)数据预处理
住房担保数据挖掘系统需要实际应用在住房置业担保公司中,因此,本文所采用的数据集为担保公司近十年来在经营过程中所积累的用户数据。该数据集的数据量规模较大,能够真实的体现住房置业担保公司客户的实际信用情况。但是,由于实际经营中获取的数据存在一定程度的冗余信息,不是全部内容都对关联分析有意义,因此,一开始需要对数据集进行数据预处理操作。数据预处理是一个关键而繁琐的过程,处理结果的好坏直接影响后续关联分析的运行速度和准确性。本文的数据预处理操作主要从以下几个方面进行。
1.去掉无关的属性。现有数据库中客户的属性多达数十个,本文通过深入分析发现,部分属性与个人信用评估关系不大。例如,姓名、现住地址、购房地址、手机号码、单位名称、合同编号等属性明显对于数据分析意义不大。因此,为提高关联分析的效率,本文把这些属性直接从数据表中删除。
2.选取属性。根据用户属性与用户信用等级的相关性,本文选取了性别、月收入、学历、房屋价格、房源、贷款利息、还款方式、贷款时间、客户级别八个属性进行关联分析。
3.属性量化。为减少计算的复杂程度,简化系统的结果,要对有关属性进行量化处理。在上述八个属性中,五个属性为量化属性,包括性别、学历、房源、贷款利息、还款方式、客户级别。为了方便进一步分析,本文对月收入、房屋价格、贷款时间三个属性根据以下条件进行量化,具体如下:①月收入的量化。如果“月收入>=5000”,则量化结果为高;如果“月收入<5000”,则量化结果为低。②房屋价格量化。如果“房屋价格>200万”,则量化结果为高;如果“100万<房屋价格<200万”,则量化结果为中;如果“房屋价格<100万”,则量化结果为低。③贷款时间量化。如果“贷款时间>5年”,则量化结果为长;如果“1年<贷款时间<5年”量化结果为中;如果 “贷款时间<1年”,量化结果为短。 4.数据抽取。本文进行关联分析所用的数据集,是住房置业担保公司所提供的真实数据,共包含65536条数据。每条数据包含多个属性,具体如下:gender代表住房贷款担保客户的性别;monthly_income2代表客户的月收入;education代表客户的受教育程度;house_totle_cost代表房屋的总花费,jf代表购买房源的类型;bank_loan_interest_rate代表银行贷款利率;repayment_type代表还款方式;loan_duration代表贷款期限;kehujibie2代表客户的信用级别。
(二)关联分析
本文采用weka软件系统,对贷款客户信用数据进行关联分析,运行结果如图1所示:
图1关联分析结果
从关联分析结果可以得出以下结论。
1.贷款客户的信用等级状况与其收入状况(主要是指收入水平、和收入稳定性)密切相关。贷款人的收入水平越高、收入来源越稳定,其所具有的信用等级越高。可以说,收入稳定性和收入水平是衡量贷款客户还款信用的最重要指标。显然,本文衡量客户信用状况的收入是指其合法的收入。
2.贷款客户所受到的教育水平也是衡量其信用状况的一个重要指标。这时因为,在一般情况下,一个人的道德素养在很大程度上取决于其所受到的教育水平。教育程度良好的人会非常注重维护个人的信誉,更加遵守法律和道德规范。也就是说,这些人具备较高的自我约束能力,具有更好的信用度。相反,教育程度低的人往往会意识不到信用的重要性,继而比较缺乏信用意识,其违约还款的可能性会比较大。
3.就职状况与客户的信用相关。一方面,贷款客户所从事的职业的种类,直接决定着其收入的高低和收入的稳定性。另一方面,从事职业也在很大程度上影响着一个人的诚信。从事不同的职业,意味着其在住房公积金、福利、医疗失业保险、退休金等方面的待遇是不同的。因此,在客户还款信用评估中,职业状况也是一个重要指标。在评估过程中,公务员、教师、事业单位的优先级会比其它职业要高,这时因为这些行业的工资、待遇和工作稳定性更加有保障。并且,从事这些行业的人会更加重视诚实和信誉,具备更好的信用等级。除以上职业外,一般来说,从事垄断行业和成长期行业职工的也属于高收入水平且工作性质也相对稳定,因此在信用评估过程中,这些行业职工的信用等级也较高,
4.银行利率与还款信用相关。从以上的关联分析还可以看出,客户的还款信用等级与住房贷款的利率成反比。贷款利率越高,贷款客户的还款信用等级越低。反之,住房贷款的利率越低,贷款客户的还款信用等级就越高。这是因为,当贷款利率增加时,客户在贷款期间需要偿还的金额就越多,其偿还能力有可能不能满足偿还的要求。然而银行利率较低时,贷款客户所需要偿还的金额就比较少,信用等级会更高一些。
除上述的四个因素外,贷款客户的还款信用等级还受到以下多个指标的影响:总房价的高低、年龄、婚姻状况、以及个人所处社会环境、信用履历等。这些指标也为住房贷款担保公司做出决策起到一定的作用,在建立风险模式时要给予考虑。
四、 结论
针对住房贷款风险问题,本文利用算法对住房贷款担保公司个人信贷数据进行了分析,分析和挖掘出客户数据中属性的频繁模式和关联关系。分析结果表明:影响住房置业担保企业客户信用的最重要因素是贷款客户收入状况,主要是包括收入水平和收入稳定性两个指标。收入越高、稳定性越好的客户,其违约的风险越小,还款的信用等级会越高;其次,教育水平的高低是评估客户信用状况的一个重要因素,这是因为所受教育的水平,不仅决定了客户收入状况,还影响着其所具备的个人诚信观念。贷款客户所从事的职业也是评估贷款客户信用等级的一个重要因素。另外,银行的贷款利率水平也在一定程度上影响着客户偿还贷款的信用。可以说,收入、教育水平、职业和贷款利率是影响住房贷款客户信用等级的四个重要依据,担保公司在评估一个新客户的信用风险等级时,要重点考虑和评估这四个因素。本文的数据关联规则来源于实际数据分析,具有良好的客观性和准确性,可以作为预测和分析贷款客户信用等级的决策依据。
参考文献:
[1]于卓. 应用决策树构建个人住房贷款风险评估模型[D]. 东北财经大学, 2007.
[2]刘顺挺. 基于数据挖掘技术的个人信用评估模型[D]. 南京理工大学, 2007.
[3]金豆. 数据挖掘技术在资产管理系统中的应用[D]. 长春理工大学, 2010.
[4]张翠翠, 阮树骅. 用于短频繁项的隐私保护关联规则挖掘方法[J]. 电子科技, 2016(5):88-92.
[5]许丽莉, XuLili. 基于信用等级迁移和违约损失的贷款定价[J]. 湘南學院学报, 2016, 37(2):7-11.