论文部分内容阅读
不完善的个人征信体系,是制约中国消费金融发展的根本因素。一方面,在政策引导下,低收入人群成为消费金融重点服务的对象。另一方面,由于低收入人群普遍缺乏信贷记录,消费金融从业机构必须通过“替代数据”考察其信用状况。这些“替代数据”数据量大、种类丰富、实时性强,具有很高的挖掘价值,是典型意义上的大数据。大数据与征信天然地具有联系,大数据处理流程与征信流程具有高度一致性。在大数据时代,信息技术的推动,使得大数据征信成为传统征信的重要补充。同时,相比于传统征信,大数据征信能够更好地支撑中国消费金融持久发展。在对比不同概念并结合实践现状的基础上,本文对消费金融及大数据征信的概念、中国消费金融大数据征信的范畴进行了界定,对中国消费金融与大数据征信的关系进行了剖析。同时,对支撑中国消费金融大数据征信的理论进行了探讨,具体包括消费理论、信贷理论、信息经济学以及互联网金融相关理论。本文认为,消费金融产品及服务的提供主体和大数据征信活动的实践主体,既可以一致,也可以不一致。在特定时期,消费金融从业机构参与大数据征信实践,是较为高效的展业方式。与此同时,中国消费金融与大数据征信关系紧密,大数据征信是中国消费金融发展的基石,中国消费金融是大数据征信应用的场景,两者相互促进、相辅相成。本文归纳了中国消费金融大数据征信的四种主要模式,即银行模式、电商模式、运营商模式、社交模式。本文分别从数据来源、业务类型、数据结构、客户群体、服务场景以及合规程度方面对各模式进行了分析,对各自特征进行了概括。与此同时,本文梳理了国内外消费金融大数据征信的典型案例。国内案例包括积极拥抱互联网的商业银行、电商旗下金融板块、运营商旗下金融板块、社交平台旗下金融板块、搜索平台旗下金融板块、个人征信试点机构、持牌消费金融公司以及互联网分期平台等。国外案例包括国际传统个人征信机构、国际消费金融大数据征信先行者以及国际新兴Fintech公司。通过对比分析可知,无论是国外还是国内,开展消费金融大数据征信的前提均是数据累积。相比于国外征信数据的交互贯通,国内征信数据存在严重的孤岛现象。除此以外,在个人信用评分上,国外从业机构擅长采用机器学习方法,国内则大多采用逻辑回归方法。个人信用评分是消费金融大数据征信的核心。当前,业界普遍基于标准评分流程进行个人信用评分。标准评分流程具有流程固定、操作简单、可解释性强、透明性高等优点。按照这一流程,本文利用国内知名消费金融公司的真实数据构建标准评分卡。与前人研究相比,本文使用的数据量及数据维度均更符合大数据征信理念。经过缺省值处理、异常值检测与处理、WOE分箱、IV值排序、相关性检验、逐步回归检验、训练集与测试集划分、逻辑回归模型构建、证权转换、评分效果分析等具体步骤,本文发现,基于标准评分流程构建的评分卡稳定性较高、评分效果尚可,但仍然存在较大的提升空间。在定性及定量分析基础上,本文认为,中国消费金融大数据征信存在两大问题:孤岛模式问题和评分方法问题。这两大问题分别在指标获取和指标提取上对大数据征信效果产生影响。针对孤岛模式问题,本文提出构建中国消费金融大数据征信交互模式。本文对交互模式的构建路径、外部数据拓展、统一标准制定、指标体系构建进行了阐述。交互模式的构建路径包括政府主导式、优势互补式、信息共享式。交互模式的外部数据拓展需要遵循互补性、可得性、稳定性、真实性等原则。交互模式的统一标准制定需要遵循普遍性、明确性、规范性、科学性、一致性、兼容性、系统性原则。交互模式的指标体系构建需要遵循多层次、可解释、易操作、利扩展、防漏损原则。统一标准制定的方式包括政府部门主导、行业协会协同、市场环境促成。指标体系构建的方式包括自上而下式、自下而上式。指标体系构建的架构包括分类架构、全交叉架构、分类单次交叉架构、分类多次交叉架构。本文认为,优势互补式是当前较为可行的交互模式构建方式,大数据交易所是当前最重要的外部数据拓展渠道,自下而上式是当前更为可行的指标体系构建方式,分类多次交叉架构更符合交互模式发展现状。与此同时,实证结果表明,PCA降维方法能有效应对大数据的“高维度、稀疏性、弱相关”特征,有利于交互模式指标体系构建,实现“以尽可能少的综合指标反映尽可能多的变量信息”的目的。针对评分方法问题,本文提出采用中国消费金融大数据征信集成方法。在重构标准评分流程的基础上,本文设计了大数据评分流程。与标准评分流程相比,大数据评分流程引入了机器学习方法。本文认为大数据与机器学习是相互促进的关系。作为机器学习发展的重要方向,集成学习包括三大要素,即基学习器的种类、集成方式以及结论合成方法。本文考察了两类基学习器,一类是以逻辑回归、决策树、K-近邻、SVM为代表的单一机器学习模型,另一类是以Boosting、Bagging、随机森林为代表的经典集成学习模型。本文认为,在选择基学习器时,应当兼顾一般性与特殊性、准确性与差异性、操作性与可行性、稳定性与灵活性原则。本文提出了四种集成方式,即同质学习器串行集成、异质学习器串行集成、同质学习器并行集成、异质学习器并行集成。在实证分析中,本文选取随机森林、Boosting、逻辑回归作为基分类器,采用异质学习器并行集成,通过概率打分法合成结论,分别构建了基于“随机森林+Boosting”、“随机森林+逻辑回归”的大数据评分卡。实证结果表明,本文构建的大数据评分卡效果优异,与此同时,并非所有机器学习模型经过集成后都能提升评分效果,“好而不同”思想至关重要。为促进中国消费金融大数据征信健康发展,本文认为,应当着力从三大方面推动交互模式及集成方法的落地实施,即加快消费金融大数据征信从业步伐、加强消费金融大数据征信层级联动、加强消费金融大数据征信基础支撑。具体措施包括:确立消费金融大数据征信从业标准、放开消费金融大数据征信从业准入、实施消费金融大数据征信从业监管、政府引导消费金融大数据征信开展、协会指导消费金融大数据征信实践、市场主导消费金融大数据征信过程、重视消费金融大数据征信人才建设、健全消费金融大数据征信设施配备、完善消费金融大数据征信隐私保护。