基于GA-LightGBM的通信信用违约预测模型研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:borchifish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“京东白条”“蚂蚁花呗”等互联网信贷模式的推出,社会信用体系的建设正逐渐完善,但如今规模最大的人民银行征信中心仍旧存有个人信用记录不完整和一部分有信用记录的公民并未登记入社会征信系统等问题,其主要原因是数据来源较狭窄,且数据多为金融和互联网行业所产生。如果运营商无法准确预测用户停机违约行为,那么不法分子将恶意破坏运营商秩序,如发虚假短信、套取账户透支额度等等,大大增加了运营风险。因此增加运营风险控制力度以及提高信用违约行为预测的准确性是运营商亟待解决的问题。为此,本文根据安徽移动提供真实数据,研究用户通信信用违约行为预测的模型。本文的主要研究工作如下:(1)为了提高模型的精度和预测的准确性,在安徽移动提供的原始数据基础上整理出六种维度用户数据,并对其进行处理和分析。六种维度数据分别为3个月内用户基本信息、通话信息、轨迹信息、上网信息和停机信息数据以及接下来1个月内的违约行为(欠费导致停机)数据。并从信用业务角度分析移动用户数据特征,研究并提出一套数据预处理方案:针对数据中的无序变量(应用分类)采用独热编码(One-Hot Encoding)处理;根据特征变量和分类变量(违约行为标识)的Person系数大小来解决数据相关性问题;通过观察特征变量热力图解决数据共线性问题;将用户轨迹信息表中的进入和离开时间的两种特征做相减操作后,根据“用户ID”筛选求和后新增“用户停留地总时间”特征,经、纬度的两种特征做去重、计数处理后再比较取较大值,得到“用户停留地总个数”特征;最后将六张特征表关联融合为一张表,相比较于单维度用户数据,对移动用户信息进行了更全面的采集和分析降低了模型训练的复杂度,使预测模型结果更加精确。(2)对训练集中的数据不平衡导致预测模型准确率低下的问题,本文采用SMOTE算法对训练集进行处理,进而有效对少数类别样本进行分析,采用最邻近规则分类技术(K-Nearest-Neighbors,KNN)对分析后的样本进行模拟得到人工新样本,将新样本添加到训练集中,使原始训练集中两类用户数量基本相等,达到平衡目的,实验结果证明,数据平衡操作减少了模型欠拟合和过拟合问题的发生。(3)在用户通信信用违约行为预测中,采用遗传算法来优化调参过程,建立一种GA-Light GBM模型来增强运营风险控制力度以及提高信用风险评估精度。该方法基于遗传算法(GA)可并行组合优化多参数的特点,对Light GBM模型的多个参数进行组合优化,通过模型评估指标值得出GA-Light GBM模型在调参时间以及性能方面都表现较优,再与传统的网格搜索法寻参后的Light GBM模型和两类传统的学习器(GBDT、决策树)进行比较,实验比较结果可证实GA-Light GBM模型各个方面表现更优异。(4)针对目前国内运营商多数是与第三方信用平台进行对接建设,没有形成自身风控信控的成熟模型问题,本文结合移动用户的基本信息、通话、上网、轨迹和停机信息和移动业务场景的需求,设计了一种基于GA-Light GBM预测模型的用户信用风险评估预测微服务器,此微服务器能够更加精准的预测并评估出各个移动用户的信用风险和星级,并将其应用于通信信用风险评价系统中,模型耗时短,节约了大量计算机资源,最后再针对运营商的运营风险控制力度较薄弱的问题上,设计了风险预警功能模块发送催收短信,并增加Web可视化界面可以方便工作人员管理。综上,基于遗传算法优化参数的Light GBM模型(GA-Light GBM)费时短且预测效果精确,更适合用于对用户的通信信用违约行为进行预测。在此基础上设计了基于GA-Light GBM的用户信用风险评估预测微服务器,运营商可以准确监测高风险人员从而降低运营风险,征信机构以此加强自身信用建设进而促进社会建立更全面的信用体系。
其他文献
短期电力负荷预测是保障电力系统安全运行的关键环节,精确的负荷预测结果能协助电力部门制定科学的决策,对实时电力调度和电网运营规划都具有指导作用。随着社会经济的发展以及科技水平的进步,多因素的影响环境使得电力负荷数据的波动行为愈加复杂,尤其是在新冠病毒全球范围内传播的大背景下,大量工业产业停工停产,电力负荷出现了前所未有的波动。这些随机性都给短期电力负荷预测带来了挑战,因此有必要采用新的预测方法,在提
学位
为了有效地模拟神经元的复杂放电行为,许多从生物实验抽象出来的基于常微分方程或差分方程的神经元模型不断涌现出来,其中Hindmarsh-Rose(HR)神经元模型,因为其相对简洁的形式以及对真实神经元放电行为的高度模拟,受到了研究者们的青睐。而具有非线性和记忆等特性的忆阻器,不仅可以作为神经元自突触来模拟神经元在电子活动中膜电位产生的电磁感应,还可以作为突触来表征相邻两个神经元之间膜电位差产生的感应
学位
各种电动汽车和便携式电子设备的大量应用,刺激了对高功率密度的储能设备的需求。在各种储能设备中,锂离子电池因其高能量密度、安全性、便携性和环境友好性而在全球范围内被广泛使用。与传统的石墨负极相比,SiO材料具有更高的充电/放电比容量和更低的工作电位,使其更适合于高能量密度场合。然而,SiO的导电性差以及在循环过程中体积变化剧烈等问题,严重限制了SiO材料的进一步发展。本文通过Na2CO3对SiO改性
学位
作物秸秆是农田生态系统的重要组成,作为农业作物生产过程最终产物,对增加农田土壤有机碳、减缓风蚀、保持水土等具有重要的意义。作物秸秆覆盖度(Crop residue coverage,CRC)是表征作物秸秆分布的重要参数,也是保护性耕作的关键性指标。随着精准农业与保护性耕作的大力推广,秸秆在农田土壤生态保护和次茬作物种植生长中扮演着重要的角色。精准高效地监测秸秆还田覆盖比例,能为政府制定秸秆还田惠农
学位
当今机器学习已遍及人类生产生活的各个领域。作为机器学习大热的研究方向,深度学习助推机器学习朝着实现人工智能更迈进一步。作为一种运算模型,人工神经网络在人工智能领域发挥着巨大的作用,其应用场景已覆盖日常生活、生产工作等方方面面。但是基于传统冯诺依曼架构的人工神经网络较生物神经元模型,对于硬件资源的耗费以及人工成本的需求更多。其原因之一是传统的计算架构已逐渐无法满足快速迭代更新的应用对处理器处理速度和
学位
滚动轴承作为旋转机械设备中的核心组件,被广泛应用在起重设备、采集机等大型机械中;因为旋转机械设备的运行环境一般比较恶劣,导致其损坏情况增加和使用寿命离散性大;滚动轴承产生的故障会造成严重的生产故障,对社会经济和社会民众的生产生活会造成不可弥补的损失。因此对其采取实时在线监测和故障诊断等措施能够有效保证旋转机械设备正常工作和减少生产损失。本课题以滚动轴承为研究对象,以滚动轴承产生的温度信号和振动信号
学位
人们通过研究自然界中具有特殊结构和功能的表面,制备了各种新型的润湿性材料表面用于社会生活中的许多方面。具有超疏水微纳米结构表面的智能电子产品因为其优异的疏水表面可以有效地保护电子产品免受水、酸、碱、盐溶液和汗水的腐蚀,同时超疏水表面也可以进行液滴操作和液滴运动的智能控制,因此对具有特殊润湿性功能的结构表面需要开展进一步的研究。本文以飞秒激光加工为基础,结合垂直和水平方向的振动驱动,设计了光滑直沟槽
学位
随着科学技术的日异月新,显微成像技术在病理学、生物医学、光学、定量相位成像等领域的应用与日俱增,同时对其要求也越来越高,不仅需要更大的观察检测视场,而且需要更高的分辨率来检测物体的细微结构。但在光学成像系统中高分辨率和大视场往往难以兼得,因此研究一种成像过程中大视场和高分辨率兼而有之的先进显微成像技术成为热点问题。傅里叶叠层显微(Fourier Ptychographic Microscopy,F
学位
火的使用是人类社会发展的一个重要转折点,使得古代文明得以极大的发展。然而,现代社会却饱受大火的摧残,火灾的发生使人们赖以生存的生态环境严重恶化、草木林地资源匮乏、珍稀物种濒临灭绝,已经严重威胁到人类生活与环境可持续发展。为了尽可能的防止火灾造成的危害,在火灾发生初期进行早期的火焰检测已变得至关重要。传统的火焰检测方法主要依赖多种物理传感器,从而实现对火灾的检测,但它们的检测效果往往受距离影响较大,
学位
及时准确的作物类型信息对于产量估计、价格预测、农业保险和水肥管理等相关决策具有指导意义。遥感作为地理信息科学的重要组成部分,其丰富的数据类型为作物制图提供了多种维度的特征集合,能够客观的反映处于不同生长阶段的作物信息。目前遥感在作物分布提取的应用中仍然面临三个问题:一是长期多云多雨的气候条件降低了光学影像的可用观测数量,不同区域的遥感数据分布不均衡极大的限制了作物识别的精度。二是在空间异质性高、作
学位