数据挖掘技术在征信数据中的应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:chenanji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
征信机构的用户征信数据具有巨大的商业价值,如何利用该数据帮助征信机构判断是否与用户进行信贷业务,是一个值得研究的问题。在研究这个问题的过程中,常见的方法是利用相关技术对已有的征信数据进行研究挖掘,找出其中的规律以便对未知用户进行信用评分的预测,最终依据此评分判断是否对其进行信贷业务。本文围绕这个问题展开研究,包括对数据挖掘方法的改进以及对实际征信数据分类问题的应用等,主要工作如下:1.考虑实际征信数据中用户评级分类问题,在进行缺失值补充等预处理后,针对将用户分为可贷款用户和不可贷款用户的实际情况,将上述问题转化为一类二分类问题,使用XGBoost算法建立用户违约预测模型。仿真结果表明,与传统的Logistic回归和GBDT算法等方法相比,XGBoost算法具有更优的分类效果,其AUC值分别提升了5.24%和6.06%。2.将对用户信用评级的分类问题转化为一类多分类问题,即将用户信用由好到坏分为1至4级,对于预处理后的征信数据,建立支持向量机集成模型,计算样本点到超平面的距离,降低了主观因素可能产生的影响,并列出信用评级排名前十的用户以供研究参考。3.对Boruta特征选择算法提出改进,即在建立阴影特征时,减少行数据混洗的比例,随后在不同量级的四组UCI数据集上分别进行实验,结果表明,特征选择结果有所改进,模型预测拟合效果也有所提升,经过与平均减少不纯度和随机Lasso等传统方法对比,发现皆有所提高;最后将改进算法应用于征信数据,显示了本人方法的优越性。
其他文献
为提高钢材料表面性能,以Ti、Zr、B4C和Fe等粉末为原料,采用氩弧熔覆技术,在Q345D钢表面制备出原位合成ZrC和TiB2颗粒增强Fe基复合涂层。利用扫描电镜、X射线衍射仪、显微硬
互动式教学契合新课标对课堂教学提出的新要求,在高中课堂中应用互动式教学能充分发挥学生学习的主动性和主体性,提升教学有效性.同时,对于促进学生数学核心素养和关键能力的
介绍避雷器在牵引供电系统中的工作原理和应用,对避雷器标称放电电流的选择提出建议,分析避雷器在牵引变电所的保护距离,并就牵引供电系统的绝缘配合进行探讨。
后进生在"自我实践"的过程中,缺乏自信心。因此,这就要求教师在教学过程中,要正确引导,树立他们的自信心,使他们有一个良好的求知心态,逐渐培养他们的学习兴趣。
通过测定果树枝、菌糠、中药渣、发酵猪粪垫料以及稻壳/木屑不同配比垫料内腐殖质及其组分含量,研究育肥猪一个生长周期内猪发酵床垫料中腐殖质及其主要组分胡敏酸、富里酸的
目录$$第一章 总则$$第二章 保护相管理$$第三章 法律责任$$第四章 附则$$第一章 总则$$第一条 为了加强山东黄河三角洲国家级自然保护区(以下简称自然保护区)的保护和管理,维
报纸
关于日本公司治理的绝大多数研究都以主银行、终身雇佣和交叉持股等外部治理机制为重点,其实公司治理的日本特色在其内部治理机制上也有其明显的表现,特别是在董事会结构和经理
目的:讨论并分析诱发产褥期感染的影响因素,以及预防产褥期感染的有效办法。方法:回顾性分析我院在2014年5月至2015年4月期间收治的产褥期感染产妇24例,对其诱发产褥期感染的
分析潜射导弹水下传递对准的特点,通过解算潜艇六自由度运动方程得到潜艇水下机动的轨迹数据,在潜艇较低强度的机动条件下,进行传递对准仿真,对弹上惯导平台失准角的估计精度能够
对3WPG-600自走式高地隙喷杆喷雾机防治小麦赤霉病和白粉病的效果进行了测试,并与HH-14型背负式机动喷雾机进行对比。试验结果表明,与背负式机动喷雾机相比,3WPG-600自走式高