论文部分内容阅读
我国征信行业起步较晚,目前个人信用体系存在着数据来源不全面、覆盖人群不广泛、预测效率不高等问题。而电信运营商作为宽带和移动互联网的流量提供者,在业务运营中积累了大量的用户数据,涵盖了生活的方方面面,且可信度非常高,这些海量、稳定、快速增长的数据为运营商进行征信服务提供了得天独厚的条件。另外一方面,随着电信业务规模不断扩大,业务产品不断创新,对于电信用户的个人信用评价成为减少坏账风险,提升业务收入的重要环节。针对这些问题和需求,本文基于电信用户数据进行特征选择与建模,参考金融领域的信用评分机制,构建了电信用户信用评分卡模型。主要工作如下:(1)多维度真实业务数据的预处理。基于电信运营商的真实业务数据,对数据集进行了预处理,提出了一种处理不平衡数据集的融合算法,该算法综合考虑了过采样和欠采样的优缺点,实现了近邻点欠采样和自适应综合过采样这两种算法的融合。经过实验验证,相比传统的不平衡数据集处理方法,融合算法的处理效果更好。(2)提出了一种新框架下的特征选择方法。针对获取的电信用户数据进行探索性分析,根据分析结果对特征进行了单列处理和选择,提出并行寻优的特征选择方法,经过实验验证,在特征比较少的情况下,新方法可以在不降低后续训练模型的性能的前提下保留最多的有用信息。(3)设计构建和实现了基于评分卡形式的信用评估模型。利用常用的机器学习算法构建电信用户信用评估模型并进行实验对比分析,综合考虑预测能力和可解释性选择逻辑回归算法实现电信用户信用评估模型,并创新性地将金融领域的评分卡模型应用到电信领域,实现了从模型到评分卡的转换。(4)设计和实现了具扩展性的信用评分原型系统。结合具体业务场景和需求,设计多个功能模块,方便后续的扩展和业务应用。综上所述,本文经过数据预处理、特征处理等工作,选择了逻辑回归算法构建了电信用户信用评估模型,并将银行客户评分卡模式应用到电信领域,为运营商进行风控和信控提供了可行的思路。