基于知识图谱的风控模型的研究与实现

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:ITlogileon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的活动可能总是伴随着风险的发生,风险是一种违背人意愿的行为事件。而风险在人类文明诞生的伊始,就受到了关注。公元前两千年,汉谟拉比法典就有关于火灾保险和货物运输保险的记载。风险管控领域涉及方方面面,对于人们最熟悉的金融机构来说,面临着包括个人信用风险、市场金融风险、流动性风险等。其中信用风险是最为显著的,信用风险主要是指,借款人在与出借人约定的还款日期到期后,却没能按照协议完成还款行为,导致出借人或者相应的金融机构财产损失的风险。这种违约行为无论是出自主观上的不愿意或者出自客观上的经济受限,都与借款人有着一定的联系。本文以P2P网络贷款为研究背景,从借贷样本分析客户,构建完整的风控模型,并建立风控平台。主要工作包括:(1)基于国外搜索引擎公司开发的schema网页标记语言模型去构筑客户的知识图谱数据,该数据模型中包含有一整套类型集合,以多层次的继承结构进行组织。用半结构化数据格式JSO N-LD表述知识图谱信息,将客户信息有机地组织起来,解决数据孤岛问题。(2)样本数据为不平衡数据,即正常样本远远多于违约样本,如果直接使用这种数据集进行分类,会对算法的学习过程造成干扰。而传统的欠采样方案会严重丢失多数类样本的信息。为解决这一问题,通过结合NearMiss算法和K-Means聚类在处理不平衡数据时的优点,提出了CBNM(Clustering-Based NearMiss)算法。CBNM算法在F-Measure和G-Mean上有显著提升,对分类效果的改进明显。(3)传统的风控模型从信用等级、违约概率出发,提供信用参考。在此基础上,建立由规则推导而成的标签模型,从多角度描述用户,构建客户画像。最后将特征处理后的数据与标签数据进行比较。实验表明,标签模型能够提升分类任务的效果。(4)完成对用户信用等级和是否违约的预测。实现风控平台,该平台主要可以维护知识图谱属性,并且根据标签、姓名等搜索查询客户详细信息。
其他文献
随着现代社会的不断发展,科技的不断进步,电子产品逐渐向着线性化、高度集成的趋势迈进。推动着整个行业的发展和技术的不断创新。而电子产品的封装技术也向着微电子封装时代
随着互联网技术的快速发展,国内的网络用户数量达到了空前的高度。网络用户通过固网或运营商的移动网络接入因特网,产生了各类型的用户网络行为流量记录。如何从互联网用户的
10月16日,来自全国23所中学的朗诵爱好者代表齐聚北京市第一零一中学,参加第三届全国中学生朗诵大会。从第一届的“雅言传承文明,经典浸润人生”到第二届的“纪念中国人民抗日战
目的本文就社区医院对糖尿病早期预防及控制的价值进行研究分析。方法选取2016年1~12月在我社区医院就诊的92例初诊糖尿病患者,采用抽签法将其分为实验组与参照组,各46例;对
<正> 《雷雨》是一部描写具有资产阶级色彩的封建专制家庭的悲剧。它以这个具有资产阶级色彩的封建专制家庭作为半封建半殖民地旧中国的缩影,展开了对"五四"前后中国社会各个
简述了水溶性聚醚的理化特性,水溶性聚醚具有良好的润滑极压性能,抗泡性能和硬水适应性能,并与脂肪酸有良好的协同作用,但对铝具有一定的腐蚀性,水溶性聚醚可广泛应用于金属
美国药事管理学简介及对我国发展该学科的几点建议北京医科大学药学院洪和根药事管理学是药学学科的重要组成部分,是药学与社会学、法学、经济学、行为学、心理学扣管理科学等
以3,4-双(4’-硝基呋咱-3’-基)氧化呋咱为原料,设计并合成了新型双呋咱并[3,4-b∶3’,4’-f]氧化呋咱并[3″,4″-d]氧杂环庚三烯(1),收率50.1%,其结构经13C NMR,15N NMR,IR,
本文分析了畜牧养殖技术推广工作中存在的问题,提出了解决问题的有效措施,进而提高了技术的渗透率。
由于具有重量轻、体积小、安全性高、工作电压高、能量密度大、功率高和使用寿命长等特点,锂离子电池成为了最广泛使用的储能器件。自从锂离子电池发展以来,人们一直尝试去提