论文部分内容阅读
近年来,伴随着大数据、云计算、人工智能等互联网信息技术的迅速发展,互联网金融业务模式也以多种形态快速崛起。互联网技术与金融业务相结合,为客户提供网络支付、网络借贷以及理财等丰富多样的低门槛、低成本、简单快捷的金融服务,并呈现出强劲的发展态势。在快速发展的同时,互联网金融也存在着如信用风险、市场风险、政策风险和操作风险等多种风险,其中信用风险是互联网借贷行业所面临的最主要风险。 互联网信贷是对传统征信业务的彻底变革,其带来的产业升级将彻底解决传统征信高成本、不及时、低准确率的弊端。大数据背景下,用户互联网行为数据的采集变得轻而易举,海量、高频的用户数据本身是实时的、动态的、高维度的,其蕴含着巨大的信息价值。因此,探索和研究如何利用互联网采集到的繁杂的用户高维度数据建立起有效的个人信用评估体系,具有重大而迫切的现实意义。 本文首先对研究涉及的互联网金融个人信用评估理论及本文应用的几种数据挖掘算法进行阐述,为之后的研究奠定理论基础,然后以融360数据为例,通过数据预处理、特征构造之后分别建立了 logistic回归模型、随机森林模型、GBDT模型和XGBoost模型,最后以AUC和KS为评价指标比较各模型在个人信用评估中的效果。发现随机森林与GBDT模型效果相差不大,但都稍优于logistic模型,而XGBoost模型的效果比其他三个模型效果好。 本文的创新之处在于大胆尝试将XGBoost模型应用于个人信用评估领域,并通过比较发现 XGBoost模型评估效果确实优于传统的分类模型,而且由于算法本身是分布式并行运行其速度得到大大提升。这些优点恰好适应了当下大数据背景下高维度、数量庞大的数据特点。