面向信用评分的不平衡数据处理方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wymanszeto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着金融借贷的快速发展,信用风险问题日益增大。因此,建立良好的信用评分模型在金融借贷领域起着十分重要的作用,以此来降低金融信用风险。机器学习方法是目前建立信用评分模型的主要方法,但现有机器学习方法中的分类模型在学习类别不平衡数据时,往往会将预测结果更偏向于多数类,而对少数类的预测准确度不高,并且容易受到噪声数据的影响,不利于分类模型的训练。然而在实际应用中,金融借贷数据集中的违约样本往往比未违约样本更少属于少数类样本,因此,金融借贷领域的数据集都存在不同程度的类别不平衡问题,并且信用评分模型中少数类样本的预测结果比多数类样本的预测结果更加重要。为了解决金融借贷领域的数据不平衡问题和噪声数据对分类模型的影响以及提高信用评分模型的整体性能,本文的主要研究内容与创新点如下:(1)针对金融借贷数据集的类别不平衡问题,本文提出了一种结合Tomek-Link和表格数据生成对抗网络(Tabular Data using Conditional GAN,CTGAN)的过采样算法(TK-CTGAN),该算法首先通过对数据集中的噪声和边界样本进行有效的过滤,再利用CTGAN对过滤后的少数类样本进行学习并生成符合少数类数据分布的合成样本,对少数类样本进行数据扩充,该算法避免了对少数类样本进行过采样时引入噪声样本影响分类器分类性能的问题,并且改善了金融借贷数据集中的类别不平衡问题,并且通过实验证明,该算法相比于合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)处理不平衡方法更具有优势,在AUC和Recall方面都高于SMOTE算法,特别是在极端梯度提升(e Xtreme Gradient Boosting,XGBoost)分类模型中,TK-CTGAN的Recall相比于SMOTE提高了18.9%,并且在AUC指标方面也更优于SMOTE算法,这说明TK-CTGAN算法可以提高对少数类样本的识别能力和整体的分类性能。(2)为了建立更好的信用评分模型,本文提出了一种不平衡集成模型TKEE-XGBoost,该模型是在Easy Ensemble框架下以XGBoost作为基分类器的集成分类模型,并且通过结合TK-CTGAN对训练数据集进行噪声过滤和少数类样本扩充。该模型通过多次抽取多数类样本与同数量的少数类样本训练若干数量的分类器进行集成学习的方法对分类器进行优化,通过实验证明该模型在Accuracy、Recall、AUC指标方面都高于原始Easy Ensemble算法,尤其是TKEE-XGBoost的Recall指标相比于传统的Easy Ensemble方法提升了7.5%,这说明TKEE-XGBoost不仅能提高信用评分模型的整体分类效果,在识别少数类样本方面更加具有优势。在金融借贷领域,违约样本属于少数类样本,因此提高对少数类样本的识别能力尤为重要,通过实验分析与验证,本文提出的TK-CTGAN和TKEE-XGBoost两种算法在Recall指标方面都具有较大的提升,这说明本文提出的这两种算法可以有效的提高对少数类样本的识别能力,从而可以对金融借贷领域中的违约样本进行有效的辨别,减少投资者的经济损失,降低金融信用风险。
其他文献
刚刚过去的10月,中国南方电网海南电网有限责任公司(下称"海南电网")成功应对了电力供应和防御5年来正面登陆海南的最强台风"圆规"袭击两场大考,获得南方电网公司和省政府肯定。自党史学习教育开展以来,海南电网坚持以习近平新时代中国特色社会主义思想为指导,深入贯彻落实党中央决策部署,牢牢把握"学党史、悟思想、办实事、开新局"的目标要求,注重融入日常、抓在经常,带动公司上下系统学史明理、学史增信、学史崇
期刊
南方电网海南电网公司深入贯彻落实党中央决策部署,牢牢把握"学党史、悟思想、办实事、开新局"的目标要求,毫不松懈抓好党史学习教育,把学党史和开新局紧密结合起来,把党史学习教育成果转化为推动公司高质量发展的实际成效,在融入和服务自贸港中实现"小公司大作为"。
期刊
信息技术的发展带来了新颖的教学模式,现代化的教学手段是科技发展的产物,为常规的课堂教学增添了许多新颖的元素,也为素质教育提供了更多可行的方式。新课改要求课堂教学变得立体化和多元化,不能一味地复制以往的教学模式,需要融入新颖的教学内容。小学数学对于发散思维的要求较高,学生容易出现接受能力较差的情况,教师需要借助教育信息化技术融入丰富多彩的教学资源,将教育信息化技术的应用方法加以完善,促进数学教学水平
教师提问是指教师依据特定的教学活动目标,根据相关的教学活动内容,创设一定的疑问情境进行教学问答的一种活动组织形式。一、问题提出本研究选取陕西省咸阳市两所幼儿园的幼儿教师为研究对象。通过实况详录观察法对教师在语言领域的教学活动进行全程录像,为期2个月,共收集28个不同班级教师的语言领域教学活动,其中小班8个、中班12个、大班8个,教师提问总次数608次。笔者从问题类型、教师反馈等方面入手,对教师的提
期刊
结构光投影技术在快速、低成本的三维成像领域中一个被广泛研究的课题。基于结构光的非接触式三维表面轮廓术是逆向工程、产品零部件工业质量控制、物体识别、医疗保健应用等领域的首选方法,因为其不会破坏物体原貌,可以精准地重建出物体的原貌。其中一个主要的挑战是提高重建的稠密度,同时投影尽可能少的图案,从而减少投射图案的获取时间。基于彩色结构光编码原理,本文对彩色结构光的关键技术进行了研究,提出了一种基于汉明距
叙述了聚偏氯乙烯(PVDC)水性涂料改性的专利技术研究,介绍了PVDC乳液改性、PVDC水性涂料改性、施工工艺及施工性能的专利技术研究,指出PVDC乳液改性研究包括物理改性和化学改性,PVDC水性涂料改性包括提高性能和特殊性能涂料的研究。分析表明,PVDC水性涂料是近年兴起的一类单组分水性防腐涂料,具有高固低黏、成膜温度低、阻燃、水气阻隔性能突出等性能,在很多领域都有其广泛的应用。认为PVDC水性
德阳人工智能开放创新中心提出从空间租赁到技术租赁,以“成本共担”的方式,通过整合技术资源和产业链的资源来持续输出人工智能核心研发能力和服务能力,以期帮助入驻的企业在集数据、算法和模型于一体的“蓄水池”中实现“随用随取”。
期刊
第四次工业革命的到来加速了各产业间以人工智能技术为核心的创新生态构建,人工智能技术和新型业态正在改写全球产业的竞争格局,其中由知识产权裹挟的技术标准先行已成为人工智能产业创新生态构建的新型竞争规则。鉴于在人工智能产业创新生态构建方面的不足,我国亟须在标准与自主知识产权布局方面有所突破,尝试从标准与知识产权协同推进视角构建人工智能产业创新生态。为此,在分析我国人工智能产业创新生态内涵和演化进程的基础
以桑黄、灵芝为原料,以冲泡液中黄酮含量和感官评分为评价指标,在单因素试验结果的基础上,设计正交试验,并结合模糊数学法研究桑黄灵芝袋泡茶制作及冲泡工艺。结果表明,桑黄灵芝袋泡茶的最佳配方及冲泡工艺为:桑黄与灵芝质量比为3∶2,冲泡时间20 min,冲泡水温75℃,茶泡袋材质为玉米纤维。采用该工艺配方制作的产品色泽黄润透亮,有桑黄及灵芝的独特香气,感官评分为(87.2±0.3)分,冲泡液中黄酮含量为(