论文部分内容阅读
作为互联网金融的重要组成部分,P2P网络借贷扩展了传统金融行业的服务范围。新兴的互联网金融平台虽然具有进入门槛低,操作快捷,简单的特点,但是与传统金融模式相比投资方风险防控能力差的特点格外明显。因此,基于网贷用户的信用风险评定以及违约预测变得尤为重要。在网贷业务的场景下,贷款额度一般比向银行申请贷款低,但是由于受众用户较多,贷款业务量十分庞大。因此,仅仅依靠传统的人工审核或者用户个别信息进行筛选的计量方法已经无法满足需求。实际上,网贷平台依托于互联网的整体大环境,其天然存在一定的数据优势,充分利用好网贷平台的现有数据并整合互联网中用户的支付,购物,社交等数据对其违约率进行预测是未来发展的一大方向。大数据场景下,P2P网贷风控的核心方法在于,通过研究分析数据的基本情况,通过数据清洗和特征工程的步骤,利用机器学习的方法来建立数据驱动的风控模型,并将其应用到风控审批的业务流程中,来指导审批业务的开展,这也是本文的研究方向和目标。在国内,目前包括人人贷,融360,拍拍贷,蚂蚁金服等都在积极推动数据化风控模型的建设。各个公司不仅在内部深入研究反欺诈模型,同时也积极支持在校学生和数据科学家的研究,共同推动着互联网金融反欺诈的发展。本文使用拍拍贷公布的真实历史交易数据,客户登陆日志以及客户信息更新日志作为研究对象,根据这三个主要信息进行网贷违约概率预测模型的研究。首先从多个角度对数据进行观察分析和处理:其中有,原始数据基本情况统计,多角度观察数据的缺失情况,变量类型调整,常变量删除,对数据原始记录进行形式统一化。然后,对清洗好的数据进行特征工程操作。特征工程的主要工作有以下几个方面:根据用户登录日志将原始时间进行更细粒度地刻画,根据用户更新日志表数据,构造用户修项内容个数和修改次数等相关特征。此外,为了减少数值型数据的异常值干扰和增加模型的鲁棒性,本文针对数值型变量使用了排序特征和统计特征。最后,根据特征的相关系数对大于0.99的特征进行删除。根据前面的工作得到的干净数据和特征,分别使用机器学习领域的线性模型LR,树模型CatBoost和非线形模型神经网络进行建模。在超参数选择的步骤中,使用Hyperopt库可以相对更有效率的得到较优的模型结果。同时,为了保证模型的稳定性和泛化能力,将训练集根据9:1的比例切分为训练数据和验证数据。由于本文研究的场景下的数据是不均衡的,因此本文在对数据切分的时候,根据目标变量的比例进行分层划分,这样得到的训练数据和验证数据分布是几乎一致的,得到的结果更可信。确定模型的超参数,得到三个基模型后本文从运行时间和AUC的角度对模型结果进行了分析和比较。首先从评估指标AUC的角度出发,在本文研究的P2P网贷违约预测场景下,CatBoost模型的的效果优于神经网络和LR。模型运行时间上,LR模型时间最少。模型得到的特征重要度分析,发现在大数据,移动互联网的当今社会,可以通过更深入地挖掘第三方信息对用户进行刻画,对预测用户是否会违约还款具有很大的作用。得到三种基模型后,为了进一步提升模型效果。本文首先使用了简单线形加权融合方法,得到的融合结果相对单模型有所提升。由于CatBoost模型在验证集上的表现优于它两个模型,在简单线性加权融合的方法中会导致其权重占比过高,无法充分利用模型的差异性进行融合,达到最优的融合效果。因此,本文对线性加权融合进行改进,创新性地提出分层加权融合,分层排序加权融合的方式,使得模型结果得到最优。本文研究的虽然是互联网金融领域P2P网贷违约预测的数据,但是整体的研究思路和方法,在机器学习领域中具有十分有效且实用的价值。