论文部分内容阅读
人类的活动可能总是伴随着风险的发生,风险是一种违背人意愿的行为事件。而风险在人类文明诞生的伊始,就受到了关注。公元前两千年,汉谟拉比法典就有关于火灾保险和货物运输保险的记载。风险管控领域涉及方方面面,对于人们最熟悉的金融机构来说,面临着包括个人信用风险、市场金融风险、流动性风险等。其中信用风险是最为显著的,信用风险主要是指,借款人在与出借人约定的还款日期到期后,却没能按照协议完成还款行为,导致出借人或者相应的金融机构财产损失的风险。这种违约行为无论是出自主观上的不愿意或者出自客观上的经济受限,都与借款人有着一定的联系。本文以P2P网络贷款为研究背景,从借贷样本分析客户,构建完整的风控模型,并建立风控平台。主要工作包括:(1)基于国外搜索引擎公司开发的schema网页标记语言模型去构筑客户的知识图谱数据,该数据模型中包含有一整套类型集合,以多层次的继承结构进行组织。用半结构化数据格式JSO N-LD表述知识图谱信息,将客户信息有机地组织起来,解决数据孤岛问题。(2)样本数据为不平衡数据,即正常样本远远多于违约样本,如果直接使用这种数据集进行分类,会对算法的学习过程造成干扰。而传统的欠采样方案会严重丢失多数类样本的信息。为解决这一问题,通过结合NearMiss算法和K-Means聚类在处理不平衡数据时的优点,提出了CBNM(Clustering-Based NearMiss)算法。CBNM算法在F-Measure和G-Mean上有显著提升,对分类效果的改进明显。(3)传统的风控模型从信用等级、违约概率出发,提供信用参考。在此基础上,建立由规则推导而成的标签模型,从多角度描述用户,构建客户画像。最后将特征处理后的数据与标签数据进行比较。实验表明,标签模型能够提升分类任务的效果。(4)完成对用户信用等级和是否违约的预测。实现风控平台,该平台主要可以维护知识图谱属性,并且根据标签、姓名等搜索查询客户详细信息。