论文部分内容阅读
中国经济的快速发展,提高了居民信用消费能力。互联网金融的快速发展,为居民信用消费提供了便利,个人住房按揭贷款、个人小额贷款、信用卡消费贷款等信贷产品如雨后春笋般涌现。随着中国经济进一步信用化,信用消费拉动经济增长的作用进一步凸显,居民信用消费意愿和能力正稳步上升。国内各互联网金融机构纷纷把个人消费贷款业务作为未来的发展战略之一。但是,国内的互联网金融机构对个人消费贷款的风险管理水平相对较低,管理手段和方法还比较落后。此外,互联网金融机构不存在有效的个人信用评估方法,这严重阻碍了个人信贷业务的发展。有效的信用评估模型不仅能增加互联网金融机构的利润,而且还能扩大互联网金融机构的信贷规模。因此,个人信用评估方法的研究意义重大。在互联网金融时代,信用数据获取的方式发生了改变,不仅可以从传统的金融机构获取信贷数据,还可以从电商平台获取电商数据以及从社交平台获取社交数据。伴随而来的是信用数据规模的大幅度增长,信用评级业务面临着巨大的机遇和挑战,如果缺乏大数据的处理能力,就无法充分挖掘潜藏在海量信用数据背后的价值。互联网金融机构已经使用定量模型来评价消费者个人的信用风险,它的研究重点之一是信用评价模型。支持向量机是数据驱动型模型,它在监督式学习过程中对数据处理,不需要对数据做特别的假设。当数据量丰富或容易获取时,支持向量机的优势更加明显,所以,它得到了学者的青睐。支持向量机的泛化能力相对其它的模型更好,本文提出了基于支持向量机的集成模型。基于大数据时代背景下对互联网金融个人信用数据进行评估,本文在数据分析与整合方面进行探索分析。本文在现有研究的基础上,提出了基于支持向量机的集成模型RSBC-SVM,它以支持向量机作为基学习器,结合了bagging和random subspace两种常见的集成策略以及相关性最小化集成选择方法。此外,它还使用了模式搜索算法进行参数优化。RSBC-SVM模型的构建分四个阶段。第一个阶段为数据分割,该阶段先把原始数据分成初始训练集、验证集和测试集等三部分。本文使用训练集的数据训练个体学习器,使用验证集的数据挑选个体学习器,使用测试集的数据对所构建的集成模型进行效果验证。初始训练集经过bagging和random subspace算法处理后又产生若干个新的训练子集。第二个阶段为个体学习器的训练,在每一个新的训练子集上构建相应的支持向量机模型,并采用模式搜索算法调参。从个体学习器的角度分析,运用模式搜索算法寻找参数,提高了个体学习器的泛化能力;从个体学习器之间的关系角度分析,模式搜索算法为每一个支持向量机模型匹配不同参数,增强了个体学习器的多样性。第三个阶段为个体学习器的选择,本文采用相关性最小化方法对集成模型进行修剪,减小集成规模有助于减小模型的存储开销和预测开销,而且增强了个体学习器间的差异性。第四个阶段为合成模型,此阶段为RSBC-SVM模型构建的最后一步,本阶段先用Sigmoid函数将支持向量机的决策值输出转换成概率输出,而后使用简单平均法对个体学习器进行组合。本文最后还尝试在互联网金融个人信用数据上对所构建的RSBC-SVM模型进行效果验证。在数据实验前需要对数据进行预处理,本文使用随机森林方法插补缺失值,箱线图法删除异常数据,使用对数变换和归一化方法对变量进行处理。最后,与其它五种模型进行了对比分析,研究表明本文所构造的模型性能最好,具有较强的现实意义。本文的理论创新点在于对支持向量机作了深入研究,提出了新的集成模型RSBC-SVM,丰富了支持向量机的理论研究。影响集成模型效果的因素之一是个体学习器间的差异性;个体学习器多样性强,集成模型的效果就越好。在增强个体学习器的多样性方面,以往学者的关注重点是数据扰动、特征扰动和参数扰动,他们忽视了在合成模型前对个体学习器的选择研究。在互联网金融的背景下,本文采用了相关性最小化集成模型选择方法对个体学习器进行选择,为集成模型的个体学习器的选择研究提供了有益的参考。以上的研究,不仅在丰富支持向量机的内容方面具有一定的理论意义,而且在推动我国信用体系建设,提高我国互联网金融机构消费信贷市场的风险管理水平,促进我国消费信贷市场的进一步发展方面具有一定的现实意义。