基于噪声性数据特征驱动的信用风险分类研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:XP19830828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能技术的进步和互联网金融的快速发展,给信用风险评估带来了新的机遇和挑战。海量的用户数据在为利用人工智能技术进行信用风险分类提供了数据基础的同时,也带来了了大量的噪声,这必然会对信用风险评估的过程和结果产生不利影响。目前,传统的信用数据噪声处理过程很少考虑数据特征的影响。数据特征对噪声处理主要存在着两方面的影响:一是数据噪声的特征(包括噪声的种类和数量特征)对噪声处理的影响,二是数据的其他特征对噪声处理的影响。对数据噪声特征的忽视会使得最终难以对不同的噪声情境提出特定的清洗方案,同时其他类型数据特征也会对噪声处理产生影响,例如若不考虑非均衡性便难以准确判别数据噪声对分类结果的影响程度。因此,这种不考虑数据特征影响的噪声清洗方法,使得信用数据噪声处理过程缺乏针对性并且影响清洗方法的泛化能力,从而损害数据清洗效果,为后续的信用风险分类带来困难甚至降低分类结果的可信度,从而给银行等金融企业带来损失。基于以上背景,本文对噪声性数据特征驱动的信用风险分类进行了研究,分别研究了信用数据中的属性噪声、类别噪声和混合噪声问题对信用风险分类的影响,并设计出了适用于不同噪声特征下的噪声处理模型以改进信用分类结果。具体来说,本文主要的研究工作及结论总结如下:首先,对于信用数据中的属性噪声问题,提出了一种基于二次投票的三阶段学习模型。该模型包括三个阶段:第一阶段,引入四个指标来评价属性的噪声水平。第二阶段,根据噪声水平的投票结果,将不同噪声水平的属性划分为不同的属性集。第三阶段,对包含不同属性集的信用数据集分别采用不同的学习策略和降噪方法进行处理。该模型采用分类回归树(Classification and Regression Tree,CART)模型作为最终的分类器,对不同学习策略和降噪方法产生的训练数据集进行性能评估,并比较信用分类结果。此外,本部分还讨论了所有学习策略在带有属性噪声的稀疏化数据集上的性能。实验结果表明,所提出的学习模型在解决属性噪声问题时最终分类结果的准确性、稳定性和计算时间方面均优于基准模型。进一步的研究表明,对于特定的降噪方法,对属性噪声数据进行稀疏化可以进一步提高分类精度的稳定性。该模型创新之处在于,采用二次投票机制克服了单个指标对于属性噪声水平评价结果的不稳定性,同时本文提出了对不同噪声水平的属性进行分类处理的策略,这一策略能够在降低属性噪声水平的同时最大程度地保留信用数据中的有价值信息。实证结果证明,本文提出的基于投票的三阶段学习模型是解决信用风险分类中属性噪声问题的一种高效可靠方法。其次,对于信用数据中的类别噪声问题,提出了一种基于聚类和分类预测结果的学习模型。该模型包括两个阶段:第一阶段采用k-means算法对不同类别噪声水平的数据进行处理,根据样本与数据集中心的欧几里德距离,通过k-means算法识别部分类别噪声样本并进行纠正。第二阶段采用基于预测的降噪方法进一步降低类别噪声水平,并选择分类回归树(CART)模型作为分类器,根据聚类结果对错误分类的样本进行检测,并在此过程中校正部分类别噪声样本的类别。实验结果表明,该学习模型在解决信用数据类别噪声问题时表现良好,能有效地检测和纠正信用数据中的类别噪声并改进信用风险分类结果,从而表明本文提出的基于聚类和预测的两阶段学习模型是解决信用风险分类中类别噪声处理问题的有效工具。最后,对于信用数据中同时存在属性噪声和类别噪声的混合噪声问题,提出了适用于不同混合噪声情境下的综合解决方案。为了解决信用数据中的混合噪声问题,在前两部分内容的基础上,本文研究了不同噪声水平下各个噪声处理步骤相互之间的影响,并通过噪声清洗的结果来比较这些影响的严重程度。根据第二、三章的内容具体来说,属性噪声的处理流程包括属性噪声水平评估和属性分类处理,类别噪声的处理流程包括基于聚类的清洗策略和基于分类预测结果的清洗,本文通过控制这些清洗步骤的先后顺序来研究各个步骤之间的相互影响。实验结果表明,在类别噪声水平较低时,类别噪声的存在对本文所提出的属性噪声水平评价机制影响较小,因而可以优先处理属性噪声从而提升类别噪声的清洗效果;在类别噪声水平较高时则优先处理类别噪声以减少其对属性噪声水平评价的影响。基于这些影响的程度本文为不同噪声情境下的各个噪声处理步骤设置了不同的优先级,从而分别为不同的混合噪声情境提出了相对应的噪声清洗方案,最终有效降低信用数据中的混合噪声水平,从而为后续的信用风险分类提供数据基础。综上所述,本文主要研究了噪声性数据特征驱动下的信用风险分类问题,基于信用数据噪声的种类和数量特征,对大数据背景下的信用数据中属性噪声、类别噪声和混合噪声对信用风险分类的影响研究和探讨,并提出了相应的噪声处理方案。这些方案均经过真实信用数据测试,能够有效降低信用数据噪声水平,从而提升信用风险分类结果。因此,本文的研究具有较强的理论意义和应用价值。
其他文献
目的:通过对乌鲁木齐市孕产妇及新生儿血清中16种多环芳烃浓度、3种多环芳烃代谢酶、尿中4种多环芳烃羟基代谢物的检测,初步了解乌鲁木齐市孕产妇及新生儿多环芳烃内暴露情况,探索多环芳烃暴露水平及代谢相关酶的相关关系及影响因素,为进一步开展环境污染物的健康影响评价、制定合理的环境卫生政策,开展环境有害物质早期宫内暴露的预防工作提供依据。方法:1.以两家三甲综合性医院的559组孕产妇及其新生儿作为研究对象
学位
“工匠精神”是爱岗敬业、无私奉献、精益求精的代名词。新时代,随着新媒体的发展与科学技术的创新,影视创作方法越来越趋于多样化,纪录片在创作中也不断注入新的元素。习近平总书记强调要在全社会弘扬精益求精的工匠精神,激励广大青年走技能成才、技能报国之路。作为纪录片的重要类型之一,近年来人物纪录片的发展日益火热。人物纪录片秉持着“以人为本”的创作理念,贴近人物本身,将镜头对准不同行业中的代表人物或能工巧匠,
学位
自上个世纪80年代中期开始至今,我国扶贫工作取得了辉煌的成绩,但在扶贫领域还存在贫困人口底数不清、对象不精准、政策指向不准等问题,在贫困户帮扶工作方面还存在一些盲点,
农业、农村、农民问题始终是关系国计民生的根本性问题。随着社会主义市场经济的发展,城乡之间差异日益增大,城乡矛盾日益突出,如何统筹协调城乡发展,缩小城乡差距,是党中央和各级政府一直在探讨的问题。2017年,党的十九大报告提出了乡村振兴战略,为我国新时期“三农”问题的发展指明了方向。乡村振兴不仅是乡村经济发展,也是乡村文明的进步。乡村文明建设关系到乡村振兴战略的推动与实施,基于此,各级政府把乡村文明建
学位
光伏扶贫作为“十大精准扶贫工程”之一,受到了我国政府多个部门的高度重视。但是,光伏扶贫项目存在着巨大资金缺口,融资困难的问题亟待解决。众筹作为一种新型的融资模式应
The way we work is changing.Businesses have revolutionized workplace management and work settings have gone through several evolutions.The latest change that ha
随着中国经济结构的不断调整,金融市场大力开展多元化发展,从而加剧了证券市场的竞争压力。所以,证券类企业想要在行业中脱颖而出,立于不败之地,在加强业务开展的同时,更重要
东丰农民画作为非物质文化遗产,是以东北农民生活为源泉的民间艺术形式,带有浓郁的乡土气息。农民接触生活观察社会,通过画面表达自己的真情实感,用质朴的笔触将时代特色和生活场景生动地描画出来,在画中表达农民真实、淳朴、乐观的生活态度,东丰农民画是源于人们劳动生活的艺术思想和艺术语言的体现。纪录片《时代画卷:东丰农民画》对东丰县进行实地考察后,采访多位农民画家,通过他们讲述东丰农民画里画外的“中国故事”,
学位
偏振成像可以将人们视觉系统难以观察的偏振信息给予直观呈现。对于分辨率较高的偏振成像传感装置而言,可以从线偏振光中获得诸多完整的偏振特性,亦能获取目标对象所含的丰富
党的十九大报告提出我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经济结构、转换增长动力的攻关期。提高经济效率、优化产业结构、培育新动力是高