论文部分内容阅读
随着网络贷款、消费金融等行业的快速发展,个人信贷行业展现出无限的活力与潜力。为了保障信贷业务健康发展,维护金融稳定,如何准确、高效地评估个人信用等级成为亟待解决的问题。关联规则用于发现大量数据项集之间的关联关系或相关关系,而决策融合是最高层次的信息融合,具有良好的实时性和容错性。因此,本文基于关联规则与决策融合的理论构建了以下三种个人征信模型:(1)构建了融合多视角相似测度的个人征信模型。某一信用等级下征信属性可以看作是服从某一分布的随机向量。因此,本文将征信的属性作为一个整体来考虑,在相同信用等级的征信属性分布具有相同均值的假设下,选择HotellingT2统计量来度量客户信用的相似性;从随机向量每个分量的边缘分布角度,选择以信息论为基础的信息测度Jensen-Shannon差异来度量客户信用的异同;当将客户信用属性项值视为高维数据空间的向量时,选择基于向量间夹角的Cosine距离来度量客户信用的差异;最终,利用加权投票策略来融合三个视角下最近邻分类器的决策信息。(2)构建了结合关联规则与自适应加权决策融合的个人征信模型。基于Apriori的关联规则挖掘是依据给定的测度(支持度、置信度或加权卡方),在数据集中通过挖掘频繁项集进而获取强关联规则的过程。但是,不同的属性项、测度以及规则对信用评价的鉴别能力是不同的。因此,本文利用后验概率设置揭示属性项判别能力的权重,通过分类性能设置体现三种测度评估信用贡献度的权重,借助学习的阈值设置反映规则信用评估能力的权重。进而,挖掘出相较于传统关联规则更能提升信用评估性能的属性项、频繁项集和分类规则,互补了不同测度的不足。最终,利用加权投票策略来融合分类规则的决策信息。(3)构建了融合多视角相似测度与关联规则的个人征信模型。除了从分布的参数假设检验、分布所含信息量以及向量的方向三个方面来揭示客户信用的差异外,也可以将征信属性值看做向量空间中的点,通过向量空间中一致范数所衍生的度量——Chebyshev距离量化客户信用风险的相似性;以及当征信属性值进行二值编码后,通过等长字符串间Hamming距离来表示客户信用的相似度。但是对于高维数据,Chebyshev距离、Hamming距离以及Cosine距离因“维数灾难”性能退化。因此本文利用关联规则提取重要频繁属性项集,以达到提高Chebyshev距离、Hamming距离以及Cosine距离的鉴别客户信用风险性能的目的。最终,利用加权投票策略来融合五种相似测度的决策信息。