论文部分内容阅读
近年来,人工智能技术的进步和互联网金融的快速发展,给信用风险评估带来了新的机遇和挑战。海量的用户数据在为利用人工智能技术进行信用风险分类提供了数据基础的同时,也带来了了大量的噪声,这必然会对信用风险评估的过程和结果产生不利影响。目前,传统的信用数据噪声处理过程很少考虑数据特征的影响。数据特征对噪声处理主要存在着两方面的影响:一是数据噪声的特征(包括噪声的种类和数量特征)对噪声处理的影响,二是数据的其他特征对噪声处理的影响。对数据噪声特征的忽视会使得最终难以对不同的噪声情境提出特定的清洗方案,同时其他类型数据特征也会对噪声处理产生影响,例如若不考虑非均衡性便难以准确判别数据噪声对分类结果的影响程度。因此,这种不考虑数据特征影响的噪声清洗方法,使得信用数据噪声处理过程缺乏针对性并且影响清洗方法的泛化能力,从而损害数据清洗效果,为后续的信用风险分类带来困难甚至降低分类结果的可信度,从而给银行等金融企业带来损失。基于以上背景,本文对噪声性数据特征驱动的信用风险分类进行了研究,分别研究了信用数据中的属性噪声、类别噪声和混合噪声问题对信用风险分类的影响,并设计出了适用于不同噪声特征下的噪声处理模型以改进信用分类结果。具体来说,本文主要的研究工作及结论总结如下:首先,对于信用数据中的属性噪声问题,提出了一种基于二次投票的三阶段学习模型。该模型包括三个阶段:第一阶段,引入四个指标来评价属性的噪声水平。第二阶段,根据噪声水平的投票结果,将不同噪声水平的属性划分为不同的属性集。第三阶段,对包含不同属性集的信用数据集分别采用不同的学习策略和降噪方法进行处理。该模型采用分类回归树(Classification and Regression Tree,CART)模型作为最终的分类器,对不同学习策略和降噪方法产生的训练数据集进行性能评估,并比较信用分类结果。此外,本部分还讨论了所有学习策略在带有属性噪声的稀疏化数据集上的性能。实验结果表明,所提出的学习模型在解决属性噪声问题时最终分类结果的准确性、稳定性和计算时间方面均优于基准模型。进一步的研究表明,对于特定的降噪方法,对属性噪声数据进行稀疏化可以进一步提高分类精度的稳定性。该模型创新之处在于,采用二次投票机制克服了单个指标对于属性噪声水平评价结果的不稳定性,同时本文提出了对不同噪声水平的属性进行分类处理的策略,这一策略能够在降低属性噪声水平的同时最大程度地保留信用数据中的有价值信息。实证结果证明,本文提出的基于投票的三阶段学习模型是解决信用风险分类中属性噪声问题的一种高效可靠方法。其次,对于信用数据中的类别噪声问题,提出了一种基于聚类和分类预测结果的学习模型。该模型包括两个阶段:第一阶段采用k-means算法对不同类别噪声水平的数据进行处理,根据样本与数据集中心的欧几里德距离,通过k-means算法识别部分类别噪声样本并进行纠正。第二阶段采用基于预测的降噪方法进一步降低类别噪声水平,并选择分类回归树(CART)模型作为分类器,根据聚类结果对错误分类的样本进行检测,并在此过程中校正部分类别噪声样本的类别。实验结果表明,该学习模型在解决信用数据类别噪声问题时表现良好,能有效地检测和纠正信用数据中的类别噪声并改进信用风险分类结果,从而表明本文提出的基于聚类和预测的两阶段学习模型是解决信用风险分类中类别噪声处理问题的有效工具。最后,对于信用数据中同时存在属性噪声和类别噪声的混合噪声问题,提出了适用于不同混合噪声情境下的综合解决方案。为了解决信用数据中的混合噪声问题,在前两部分内容的基础上,本文研究了不同噪声水平下各个噪声处理步骤相互之间的影响,并通过噪声清洗的结果来比较这些影响的严重程度。根据第二、三章的内容具体来说,属性噪声的处理流程包括属性噪声水平评估和属性分类处理,类别噪声的处理流程包括基于聚类的清洗策略和基于分类预测结果的清洗,本文通过控制这些清洗步骤的先后顺序来研究各个步骤之间的相互影响。实验结果表明,在类别噪声水平较低时,类别噪声的存在对本文所提出的属性噪声水平评价机制影响较小,因而可以优先处理属性噪声从而提升类别噪声的清洗效果;在类别噪声水平较高时则优先处理类别噪声以减少其对属性噪声水平评价的影响。基于这些影响的程度本文为不同噪声情境下的各个噪声处理步骤设置了不同的优先级,从而分别为不同的混合噪声情境提出了相对应的噪声清洗方案,最终有效降低信用数据中的混合噪声水平,从而为后续的信用风险分类提供数据基础。综上所述,本文主要研究了噪声性数据特征驱动下的信用风险分类问题,基于信用数据噪声的种类和数量特征,对大数据背景下的信用数据中属性噪声、类别噪声和混合噪声对信用风险分类的影响研究和探讨,并提出了相应的噪声处理方案。这些方案均经过真实信用数据测试,能够有效降低信用数据噪声水平,从而提升信用风险分类结果。因此,本文的研究具有较强的理论意义和应用价值。