基于k-prototypes对个人信用分类

来源 :科学与生活 | 被引量 : 0次 | 上传用户:greenman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:风险的评估是银行风险管理的核心内容。金融风险包括市场风险、行业风险等,针对个人信用风险,银行需要根据借款方的信用风险情况进行合适的贷款。本文利用2020年全国大学生数学建模C题所给的1000组数据,在类别变量消除后,在缺少信用等级分类项条件下,采用聚类方法对1000组个人信用数据根据所给20个指标进行等级分类,共分为优、劣两类,由许多聚类针对数值型指标,这里采用k-prototypes算法对不同类型指标进行聚类,最终得出结果与未剔除变量之前进行比对,检验其合理性。
  关键词:个人信用风险评估;聚类;k-prototypes算法;
  引言
  个人信用风险评估是银行风险管理的核心内容。为了实现银行企业经营信贷收益的最大化,建立完善、自动化的个人信用评估体系,科学识别个人的信用风险是十分有必要的。苏诚[1]利用Logistic回归算法对所训练的样本进行训练,将处理后数据代入模型,分类“好”、“坏”客户两类。苗家铭[2]研究出基于数据挖掘技术建立个人信用风险评价模型,构建指标体系,运用Logistic模型实现个人风险评估。但在未知类别指标时,没有可以作为训练集的数据进行训练时,就需要运用无监督学习,来根据指标对个人信用数据进行分类。很多聚类方法使用于数值型指标的数据,而对既有数值型指标,又有分类型指标时,需用到特别的聚类算法,本文采用k-prototypes算法对数据进行聚类分析,将总体数据聚类分为2类,即对客户进行信用等级完成分类。我们得到一类含有827个样本数据,另一类含有173个样本数据,根据实际情况与经验,分别分成优、劣两类,完成对个人信用数据分级。
  1.k-prototypes模型[3]
  1.1 模型建立
  k-prototypes算法基本原理是在聚类过程中,将数值型指标和类别型指标分别拆开,分别计算样本间的距离,再将两者相加,视为样本间的距离。
  其原理大致如下:假设一组样本数据集合为 ,并且样本数据集合中的每个数据均有m个指标属性,即 ,将数值型数据与分类型数据指标分开,数值型数据在集合Y前面且共有p个指标属性,分类型数据在后面且共有m-p个指标属性。假设初始选定原型集合为 ,中间过程中得到集合为 。本文对数值型数据指标的差异度即距离公式选用欧式距离计算方法,对分类型数据指标使用海明威距离计算方法。其具体算法步骤如下:
  Step1:随机选取k个初始原型作为中心点C;
  Step2:针对数据集中的每个样本点,计算样本点到k个模型的距离,并根据计算结果把样本点分到距离自身最近的类别当中,更新簇中心;
  Step3:更新后,重新确定类别的原型,数值型数据指标对应的样本取其均值作为新的原型的特征取值,类别型数据指标对应的样本取其众数作为新的原型的特征取值;
  Step4:重复2、3步,直至没有样本改变类别,得到最后的聚类结果;
  1.2模型的求解
  利用python软件编程,用k-prototypes算法对数据进行聚类得到结果,然后与未剔除的类别变量作比较,总体结果对比如下图所示:
  其中1代表个人信用评估为优,2代表个人信用评估为劣。
  从结果可以看出,将1000个样本数据聚类分成2类,827个样本数据为一类,173个样本数据为一类,通过对827个这类数据与20个指标进行综合分析,结合实际情况,不难分析出,这些个人的信用风险较好,同样对另一类进行分析,易知个人的信用风险较差。最后,将827这类样本数据定为个人信用风险优这一类,另一类归为个人信用风险较差这一类。
  2.結论
  从结果来看,对20组不同类别指标数据进行聚类后,对个人信用风险进行等级划分,效果较好。同样,可以推广到其他一些分类模型中,其中,数据的评价指标类型有数值型与分类型或存在混合类型的指标,而一般聚类方法时是只针对于数值型指标,这时就可以采用k-prototypes来达到分类的目的。
  参考文献
  [1]苏诚.基于Logistic回归模型的商业银行信用风险评估研究[J].中国城市经济,2011,(12):72.
  [2]苗家铭.基于数据挖掘技术的商业银行个人信用风险评估模型及其应用[D].南京财经大学,2015.
  [3]李顺勇,顾嘉成.一种增强的K-prototypes混合数据聚类算法[J].陕西科技大学学报,2021,39(02):183-188.10.19481/j.cnki.issn2096-398x.2021.02.028.
其他文献
摘要:网络的普及和深入使得个人信息逐渐透明化,侵犯公民个人信息犯罪呈高发态势,并且犯罪开始组织化、链条化、技术化,对个人信息安全造成巨大的冲击,加大了刑法对其规制的难度。目前,《刑法修正案(九)》对本罪进行了规定,但也存在个人信息范围模糊、前置性法律缺失、犯罪行为方式规定不完善的困境。因此,必须加快完善公民个人信息的刑法保护,同其他相关法律一起形成完善的个人信息保护机制。  关键词:侵犯公民个人信
目的 观察肠內营养对危重病机械通气患者的临床疗效.方法 78例需机械通气患者,肠內营养组42例,予以能全力(荷兰Nutricia公司)每日1000 ml鼻饲;对照组36例,予以普通流质每日1000ml鼻饲(250 ml,每日4次).观察治疗前和治疗后3、7、14 d 2组患者血清总蛋白、白蛋白、肌酐身高指数、免疫球蛋白、淋巴细胞计数、氮平衡、氧合指数(PaO2/FiO2)、呼吸机参数、血常规以及A
摘要:针对智能交通领域数据安全等方面存在的痛点问题,将区块链相关技术应用于智能交通系统中,解决车辆在数据共享传输过程中可能存在网络攻击,信息内容被恶意篡改等问题。通过对关键技术应用的研究,提出了基于区块链的交通监控数据安全保护设计方案,对推动交通安全发展具有重要意义。  关键词:区块链,交通监控,智能交通  一、引言  在智能交通系统中,通过海量信息的传输来实现信息的传递。特别是对交通车辆实施有效
摘要:时间进入二十一世纪,互联网得到快速的发展,随之而产生的大数据产业逐渐融入到我们的生活中。在当前大数据迅速发展的形势下,生活中各行各业已经逐渐重视起人力资源管理在企业发展中的重要作用,为了让企业人力管理工作尽快适应这个快速发展的互联网大数据时代,对人力资源管理进行变革显得尤为重要,本文将基于大数据时代企业人力资源管理变革进行分析,为企业提供相应的参考建议,更好的推动社会经济的发展。  关键词:
表格是医学科技论文的重要表达方式,清晰、明确的表格可正确反映研究结果[1].表题是表格的名称,是以最恰当、最简洁的词语表达表格中特定内容的逻辑组合。
目的 研究玻璃酸钠与得宝松关节腔内注射补充治疗膝骨关节炎(OA) 的疗效.方法 选择临床OA 患者50例, 采用关节腔内注射SH与得宝松联合治疗,每周1次,每次玻璃酸钠2 ml、得宝松0.2 ml,疗程5周.结果 玻璃酸钠联合得宝松治疗OA总有效率为96.2%.结论 联合替代疗法治疗早、中期膝OA是一种值得推荐的方法。
摘要:简要述评了机器翻译的起源和发展,实现机器翻译的原理方法分类,包括基于规则、基于统计法、基于实例、混合法等。同时介绍了机器翻译应用的主要场合和应用的前提条件。  关键词:机器翻译;神经网络;深度学习  机器翻译Machine Translation(简称为MT)属于计算语言学的分支,主要是研究如何使用计算机软件将一种语言文本或语音从翻译成另一种语言。  一般来讲,机器翻译指的是使用计算机软件机
急性酒精中毒是急诊科常见疾病,2004年至2005年我院共收治酒精中毒患者95例,其中复方麝香联用纳洛酮治疗35例,临床疗效较好,现报告如下。
目的 探讨原发性阑尾肿瘤的临床特点、诊断及治疗要点.方法 回顾性分析22例原发性阑尾肿瘤患者的临床资料.结果 阑尾黏液囊肿14例,腺癌5例,类癌3例,均行手术治疗,经病理证实.其中阑尾切除10例,回盲部切除8例,右半结肠切除4例.结论 阑尾肿瘤缺乏特异性表现,术前诊断困难,误诊率极高,对术中可疑者应行术中快速冰冻切片明确诊断,以选择适当术式,提高术后生存率。
摘要:随着信息技术和大数据的发展,企业之间的竞争已由传统的产业实体竞争转变为信息管理水平的竞争,企业应顺应时代的发展,建立企业集团财务共享中心是发展的必由之路,本文将对企业集团财务共享中心的发展的产生的必然性、创建的条件进行分析研究,探讨企业财务共享中心的构建问题,以更好的提升企业的竞争力,促进企业良性发展。  关键词:集团企业;财务共享中心;管理提升  一、财务共享中心的概述及职能  财务共享中