个人信用计量模型设计与研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:wys9802110814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们步入信息时代之后,计算机科学技术进步提速明显,各行各业都越来越依赖于计算机、互联网的辅助。随着科学技术进步和不断成熟,经济得到质的发展,我们的生活习惯也随之被改变,生活上从各方面来说都越来越便利了。然而各种事物的发展各自都需要有不同的时间段或时机,背后维系着以上便利生活的事物,是对一个人的信用如何评价的问题。共享经济担心的是用户借走物品后是否能按时完整地归还,借贷公司和银行担心的是客户能否拥有偿还信用贷款的能力,网上购物时候客户担心商品是否货真价实、商家担心客户的无理索偿等,诸如此类无不建立于完善的信用体制之上。低信用度的社会,无疑会增加这些便利服务的运营成本,同时也会耗费大量的时间成本去处理由此引发的一系列纠纷问题。因此在当今社会发展中对个人信用进行客观量化计量的研究和整个社会信用体系的完善有着举足轻重的意义。针对个人信用数据经常存在数据缺失的问题,本文利用随机森林(Random Forest,RF)模型对数据缺失值填充,并在均方误差(Mean Square Error,MSE)指标上比一般常用的均值填充法低5.91%,比零补填充法低3.31%,效果显著;针对传统的信用计量模型未对重要特征进行选择,导致计量不准确的问题,本文结合IV值特征选择法筛选样本数据特征;建立Logistic回归模型对样本数据进行预测,在模型度量指标准确率、F1-score、AUC上均排行第一,并且较于各指标排名第二位模型分别高出了0.53%、1.19%、2.64%。本文借鉴Stacking的层级组合模型思路,目的意在构建一个RF-IVLogistic组合模型,希望该模型在个人信用计量中较一般常用的信用计量模型在准确率、鲁棒性及综合性能上都更加优秀。本文的主要研究内容如下:1.根据个人信用计量数据的特点,结合数据挖掘的流程构建本文的个人信用数据挖掘框架,并制定本文的技术路线。2.结合德国个人信用数据(German Credit Data)分析数据缺失所带来的问题,进行数据预处理及数据缺失值分析工作,引入随机森林模型对数据缺失值进行填充,并利用均方误差(MSE)指标把此方法与常用的样本特征数据缺失值填补方法效果进行比较。3.针对个人信用计量的数据特征筛选问题,引入了IV值筛选特征的方法,并利用计算特征IV值的方法筛选出对于个人信用计量二分类任务关联度高的特征,减轻了后续预测模型的训练负担。4.基于Logistic回归模型构建个人信用计量模型,与随机森林数据填充模型及IV值特征筛选方法融合,最后构建出一种基于Logistic回归融合随机森林和IV值方法的组合模型(RF-IV-Logistic模型),通过在德国个人信用数据集上的实验对比,本文所提出的RF-IV-Logistic模型在各项指标上都有显著的提升。5.通过研究和分析个人信用评分卡制作原理,反映出本文研究设计的RF-IVLogistic模型可进一步被应用于个人信用评分卡制作的可行性。
其他文献
钢管约束型钢混凝土结构具有抗剪承载力高、延性好、施工方便、防火性好,被大量研究以及应用。本文在课题组前期研究的基础上,为了使塑性铰外移,节点域的混凝土开裂程度低,使节点具有优越抗震性能,提出了带环梁的方钢管约束型钢混凝土柱-钢梁狗骨削弱节点连接形式,本文主要研究内容如下:(1)对基本节点进行设计和有限元建模。用有限元软件ABAQUS对已有相关试验节点建模分析,包括一个带环梁的圆钢管约束H型钢混凝土
耐甲氧西林金黄色葡萄球菌(MRSA)是生鲜乳生产中引起人类食源性感染的重要致病菌之一,该菌广泛存在于奶牛养殖环境中,通过多种途径污染牛乳,严重危害人畜健康。本研究以5%绵羊血琼脂平板为采样基质,采集山西省某奶牛养殖小区和挤奶间的空气、圈舍围栏、奶牛鼻腔、肛门、乳头、饲料、粪便,挤奶器、牛乳以及小区外周居民区空气样本,通过细菌分离、染色镜检、选择纯化培养、16S rRNA保守序列分析、MRSA表型鉴
随着工业向自动化和智能化的方向发展,工业机器人在智能制造的各个环境中越来越不可或缺。但目前工业机器人不能只解决重复性比较高的劳动,还需要结合近些年发展迅猛的机器视觉来完成更多复杂的工业任务,比如陶瓷自动打磨,自动焊接等。传统的机器人示教方式有其自身的优势,但基于视觉示教的新型机器人示教方式能够解决复杂路径的工业问题,而且具有效率高、精度高和操作简单的优点。本文提出一种基于视觉示教的方式,利用自制的
本研究分析了蒙古国肉类产品和肉类出口量。蒙古国是世界上少数几个仍由游牧牧民放牧牲畜,且牲畜仅以自然产品为食的地方之一。蒙古国的畜牧业占农业总产值的80%以上,约占出口总收入的10%。该国约三分之一的人口只靠牲畜收入生活,间接向全国人口提供粮食。另一方面,该国有6650万头牲畜,除去其国内肉类消费总量,该国有潜力向国际市场出口大量肉类。除此之外,由于一些因素的限制和影响,肉类出口量无法达到其潜在水平
近些年来,微生物药物的开发和利用势头略显疲软,原因是发现新的有较好生物活性的微生物次生代谢产物需要耗费大量人力物力,而传统的链霉菌属已被反复研究。所以从一些相对新
制造业是国民经济的重要支柱。“工业4.0”及多元化需求的背景下,企业只有制定更加合理的调度方案,才能及时地响应市场。传统车间调度问题忽略了除加工时间以外的其他时间,但
主振荡功率放大(Master Oscillator Power Amplifier,MOPA)光纤激光系统具有结构稳定、光束质量良好、输出能量高、适用范围广等特点,广泛应用在工业生产、空间测距以及军事
高含水的油田产液计量是关系到油田地质开发决策、产量分析、生产工艺调整等多方面的关键工艺环节,目前大多采用分离各相后分别计量的方式,但是该方式存在体积大、能耗高、价
人类特异的miRNAmiR-941在人脑组织中高表达,可能在人类大脑进化中扮演重要角色。为探究其在人类大脑发育中的可能功能,本论文在人神经祖细胞(ReNcell CX)中实现miR-941过量
随着科技的进步,尤其是移动互联网的快速迭代发展,互联网应用正在给我们的生活带来翻天覆地的变化,对传统的企业营销带来猛烈的冲击。数据时代,开展互联网营销已成为所有商家的共识。本文从建筑行业现状和LW网的发展历程及模式探索中引出LW网营销现状及存在问题,并提出针对性的优化方案和保障措施。本文以建筑装饰行业为宏观背景、LW网为微观背景,通过理论研究、数据统计、市场细分定位等方式,对宏观和行业环境、消费特