基于迁移学习的分类方法研究及其在信用评分中的应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:QQ379043463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代下,迁移学习方法作为在新业务标注数据不足时,利用旧有数据提高新业务模型的主流技术,在许多应用中发挥了重要作用。传统统计模型的理论和实证研究通常是在训练集与测试集分布相同的假设下进行的,即要求训练集与测试集的边际分布和条件分布相同,这在我们利用旧业务样本解决新业务问题时是很难满足的。例如在商业银行在小微企业贷款问题中,旧有业务是风险更小的抵押贷款,新业务为小微企业的信用贷款,往往新旧数据在分布上存在很大的差异;再比如个人住房贷款中,旧业务服务于城市,新业务拓展到乡村,新旧样本在收入、贷款金额等特征的分布也会存在差异。在这种情况下,若直接将新旧数据不加区分一起建模分析,可能带来严重的偏差,反而可能使得模型失效。传统迁移学习方法在解决上述问题时,缺少可同时解决边际分布和条件分布差异的方法,也缺少可同时基于样本和特征进行迁移的方法,导致单一迁移学习方法适用性十分有限,模型稳健性很低。为了解决边际分布不同的问题,本文首先拓展了迁移成分分析(TCA)的适用范围,根据样本重要性的差异提出加权迁移成分分析(WTCA)。进一步为了解决条件分布不同的问题,受到提升法优化权重的启发,提出了加权迁移成分分析提升法(WTCABoost),实现基于样本和特征的迁移。本文对WTCABoost方法进行了详细的算法推导,针对数据间可能存在的多种关系,我们进行了多种情形下的模拟分析,并将WTCABoost方法与传统迁移学习方法和监督学习方法进行对比。模拟结果表明,在不同边际和条件分布的假设下,WTCABoost方法在准确率、AUC和稳健性上的表现均显著优于对比模型,并且当样本量增大或者样本维度增加时WTCABoost方法依然保持优势。最后,本文对小微企业抵押贷款和信用贷款的应用展开研究。结果表明,WTCABoost方法在各个方面表现均较为出色,并一致优于其他对比方法。在模拟和实证中WTCABoost方法都较好的解决迁移学习中可能出现的负迁移问题。
其他文献
学位
学位
学位
学位
中国纺织技术源远流长,有近五千年的历史,其绣工精致,构思巧妙,色彩繁丽的特点,是中国传统手工艺品的杰出代表。作为中国传统文化技艺的载体,中国传统丝织技术也成为“中国文化走出去”的一个推介环节。例如在海内外掀起热潮的古装剧《延禧宫略》中美轮美奂的丝绸制品就曾在中日两国引起热议,与此同时,同类题材的纪录片也在网络上有相当的讨论量。《锦绣纪》是中央电视台制作的纪录片,讲述了传统丝织技艺在当代中国社会的传
学位
学位
学位
学位
学位
学位