论文部分内容阅读
近年来,随着人们消费观念的改变和互联网科技的进步,消费金融行业得到了蓬勃发展,越来越多的企业涌入这一领域。然而,在消费金融覆盖人群越来越广的同时,贷款欺诈现象也愈演愈烈。因此,在放贷过程中,对客户信用的鉴别显得格外重要,这也是风险控制中的重要环节。传统的风险建模运用了用户的大量信息作为协变量建立统计模型或机器学习模型,用模型的输出来判定客户的信用水平。但是在有些情况下,用于建模的协变量包含的信息可能有限,无法很好地起到鉴别客户的作用。甚至有时候协变量可能缺失率较高或者完全无法获取,所以导致无法对某些客户的信用水平作出客观判断。然而,客户之间的关系网络往往比较容易构建,比如利用其申请信息、社交账号信息、通话信息等,因此可以考虑利用关系网络来甄别客户的好坏。
在对网络数据的研究中,社区检测是一类很重要的问题,其思想在于通过网络中节点之间的连接密集程度将整个网络分成几个子网络,而每个子网络之中的节点应该含有相近的属性。通俗地说,就是物以类聚,人以群分,同一类型的人群之间的联系应该更加密切,而不同类别的人群之间的联系就相对较少。在社区检测的假设基础上,借鉴基于图的半监督学习算法的核心思想,本文提出了一种利用关系网络来甄别客户好坏的算法,命名为网络标签传播算法。在实际中,如果单单基于贷款申请人构建网络,那么这个网络会比较稀疏,也没有考虑到一些贷款中介的影响。因此,本文考虑基于贷款申请人及其所有关联客户的大型网络。但是,网络中各个客户的好坏标签往往存在大量的缺失,因为其中只有很少部分客户有过还款行为。而网络标签传播算法仅需要通过所有客户之间的关系网络,就可以利用这少量有标签的客户(通过审批且有过还款表现的客户)的真实标签来预测无标签客户(被拒客户或者未申请过贷款的客户)的真实标签,以辅助消费金融公司在贷前评估个人信用,从而达到风险控制的目的。
在一些合理的条件下,本文证明了网络标签传播算法的收敛性,且收敛到唯一值。同时,在相应的数据生成机制下,该算法的一致性也得到了证明。通过在模拟数据和实际数据上的应用,本文验证了网络标签传播算法在各种情形下都能达到良好的预测效果,且在某些情况下应用效果极佳。
在对网络数据的研究中,社区检测是一类很重要的问题,其思想在于通过网络中节点之间的连接密集程度将整个网络分成几个子网络,而每个子网络之中的节点应该含有相近的属性。通俗地说,就是物以类聚,人以群分,同一类型的人群之间的联系应该更加密切,而不同类别的人群之间的联系就相对较少。在社区检测的假设基础上,借鉴基于图的半监督学习算法的核心思想,本文提出了一种利用关系网络来甄别客户好坏的算法,命名为网络标签传播算法。在实际中,如果单单基于贷款申请人构建网络,那么这个网络会比较稀疏,也没有考虑到一些贷款中介的影响。因此,本文考虑基于贷款申请人及其所有关联客户的大型网络。但是,网络中各个客户的好坏标签往往存在大量的缺失,因为其中只有很少部分客户有过还款行为。而网络标签传播算法仅需要通过所有客户之间的关系网络,就可以利用这少量有标签的客户(通过审批且有过还款表现的客户)的真实标签来预测无标签客户(被拒客户或者未申请过贷款的客户)的真实标签,以辅助消费金融公司在贷前评估个人信用,从而达到风险控制的目的。
在一些合理的条件下,本文证明了网络标签传播算法的收敛性,且收敛到唯一值。同时,在相应的数据生成机制下,该算法的一致性也得到了证明。通过在模拟数据和实际数据上的应用,本文验证了网络标签传播算法在各种情形下都能达到良好的预测效果,且在某些情况下应用效果极佳。