基于融合模型的不平衡网络小额贷款违约预测研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:zhouyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络小额贷款具有办理方便、打破地域限制等优点,对于小微企业和中低收入个人都有非常重要的作用,称得上是经济调节中至关重要的一环。但是网络小额贷款具有没有抵押、信息不对称、违约成本低等因素,违约率相对较高,导致成本也随之升高。本文旨在利用机器学习方法,对小额网贷数据建立合理模型,有效识别违约用户,减少成本和风险。本文的数据来自于竞赛数据,数据量大且特征维度高,并存在样本分布不均衡的问题。基于此,本文运用特征选择技术、不平衡采样技术、模型集成算法构造出不同的分类器,最终利用模型融合方法得到最优模型。具体来说,首先对数据进行预处理:删除重复值、识别异常值、填充缺失值;清洗后做描述性统计分析,初步探索数据的特点;探索出基本特点后对各特征进行处理,包括特征分箱、分类变量数值化、构造新特征、删除无用特征等,得到最终所用的数据集。接着,进行特征工程和不平衡采样的组合探索,在特征工程中选取最大信息系数过滤法、递归消除法、基于树模型的嵌入法,而在不平衡采样的各大类型中选择SMOTE过采样、ADASYN过采样、Near Miss欠采样SMOTETomek综合采样,两两组合,通过逻辑回归和决策树两个基础模型,根据AUC值选择最优方案为最大信息系数过滤法+ADASYN过采样的组合。然后,在该方案的基础上构造模型并根据AUC值调试参数,包括调参过后的逻辑回归模型,Bagging方法的随机森林模型,Boosting方法中的Ada Boost模型、XGBoost模型、Light GBM模型五种典型模型。通过实验设计发现,所有模型AUC值相对于基础逻辑回归模型和决策树模型均有提升。最后,构造Stacking融合模型进一步提升AUC值,发现第一层为Ada Boost+随机森林+Light GBM模型,第二层为逻辑回归的模型有更高的识别率71.60%,该分类器可以作为预测违约用户的参考方法。
其他文献
一直以来,金融风险的度量与管理是金融界普遍关注的热点问题。而金融资产波动率作为量化金融风险的关键指标,它的预测在金融风险研究中具有重要的作用。良好的波动率预测不仅能够帮助投资者规避股市波动带来的风险,还能够有效防范贸易、投资等领域的风险,在一定程度上促进文明股市交易环境的构建。在实际研究中波动率预测面临着巨大的挑战。一方面在于波动率预测的影响因素较多,不同因素之间具有复杂的非线性关系。另一方面,在
学位
在股票市场上,行业板块波动特征与行业发展存在复杂多样联系,准确描述行业板块的波动性特征有助于探索该行业的发展形式及变化特征。世纪疫情对我国股票市场各行业板块造成强烈影响,给股票市场带来不确定性。基于此,本文通过研究新冠肺炎疫情发生前后各个行业板块波动性变化特征,分析疫情对该行业的影响,通过行业板块在不同时间的收益率序列来探索疫情前后行业板块波动的聚集性、非对称性和行业之间的传导方向是否发生变化以及
学位
金融资产的波动率预测研究一直是个热门的研究方向,金融资产的波动率预测模型大多基于传统时间序列模型进行开展。随着计算机领域的发展,深度学习等神经网络算法取得突破性的进展,怎样才能更好地借助这些理论使波动率预测更加准确还需要更深入的研究。随着我国在金融期权和商品期权市场的不断丰富和扩大,同时基于期权的杠杆性和收益不对称的特点,通过期权投资策略的构建,使投资组合的风险降低的同时提高投资组合收益对于投资者
学位
近年来,数字经济作为一种新的经济形式,已然成为撬动经济增长的新动能。数字经济的发展改变了居民原有的的消费模式和消费习惯,并拓宽了居民的消费渠道。研究数字经济对于居民消费的影响和作用,对畅通国内大循环、拉动内需、促进消费有着重要意义。在系统梳理相关文献基础上,本文首先界定数字经济和居民消费扩容升级的概念,理论探讨了数字经济发展对居民消费的影响路径;其次,利用CRITIC赋权法和泰尔指数及其贡献率测算
学位
随着我国经济飞速发展,居民生活水平得到了大幅度提升,但地区间发展不平衡、分配不均等问题仍然存在,我国中等收入群体比重并未出现大幅度的提高。截至2018年,国家统计局提出,以典型的三口之家计算,我国家庭年均收入在10万元-50万元内的中等收入群体大约有4亿人,是世界上规模最大,最具有发展潜力的中等收入群体。然而还应看到的是,我国人口规模较大,中等收入群体规模不足30%。要形成稳定的“中间大、两头小”
学位
事件抽取是指将用户感兴趣的主体、客体、时间等信息,从非结构化的文本中,自动检索并编辑成结构化的数据呈现给用户。因此,事件抽取在文本摘要、信息检索、情感分析、信息收集等领域有着广泛应用。近年来,随着深度学习的发展,事件抽取方法也从传统的基于规则的抽取发展到如今主流的基于深度学习的抽取。本文就基于深度学习的事件抽取模型优化问题开展深入研究,主要工作如下:(1)从优化训练方式角度出发,针对基于预训练语言
学位
癌症是导致非自然死亡的重要疾病之一。引起癌症的原因非常复杂,遗传、生活习惯、工作环境等因素都会对人体健康带来潜在的影响。肝癌是较为常见的恶性肿瘤,医学专家致力于癌症早期诊断治疗研究,相比较传统的诊断方法,基因芯片技术则从基因表达层面提供癌症特性,可以从高纬度基因集合中提取有用信息。本文数据来源TCGA数据库,研究原发性肝癌样本与正常样本的基因表达数据,找出能够判别两类样本的差异基因并结合临床数据分
学位
从改革开放到现在,我国不断扩大对外开放引进外商直接投资,而外商直接投资在我国的发展区位十分不平衡,主要集中于东部沿海地区。但随着国家大力引导外商直接投资进入内陆省份,中西部地区近年来也迎来了发展外商直接投资的良好机遇。湖南省作为中部省份之一,进入21世纪以后,外商直接投资的规模随着国家的趋势持续扩大,到2020年增幅已居全国前列,因此研究湖南省外商直接投资的影响因素以及对湖南省未来外商直接投资进行
学位
随着人工智能的发展,机器学习技术越来越多地应用于社会各个领域,用以辅助或代替人们进行决策,特别是在一些具有重要影响的领域,例如,信用程度评级、学生质量评估、福利资源分配、疾病临床诊断、自然语言处理、刑事犯罪判决等。如何提升机器学习算法的公平性,保护到弱势群体的利益,直接影响到社会和公众对机器学习的信任,以及人工智能技术的应用与系统部署。公平性机器学习目标是在分析数据的同时考虑到公平性、中立性和独立
学位
在大型基建项目中,土方量计算是项目施工和工程审核的基本步骤之一。有关土方量计算的操作不仅关乎项目的施工进展,而且会影响项目核算的经济效益。为了加快施工效率、降低经济成本,高效且高精度的土方量计算成了当务之急。为实现提高DTM法计算土方量的精度要求,本文针对在高精度土方量计算中三角网格分布的统计规律展开研究。根据已有的优化理论知识,研究非结构化网格的优化算法,对实验算例进行网格优化以降低土方计算误差
学位