论文部分内容阅读
由于近几年计算机处理能力的提升和数据科学的进步,推动了互联网的快速发展,以第三方支付服务为代表的在线交易模式已成为人们主流的消费方式之一,每时每刻来自互联网各个角落的人们通过这种基于网络的在线交易平台进行着成千上万的交易。而随着在线交易支付订单规模扩大和总交易金额的大幅度提升,各种类型的在线交易欺诈行为也越来越普遍。在线交易风险管理一直以来是业界十分关注的问题,而作为风险管理的重要组成部分,研究在线交易风险识别具有十分重要的现实意义。在线交易欺诈行为有发生频次低、造成危害大等特征,一般的反欺诈手段难以进行有效的识别并加以防范,随着机器学习与数据挖掘相关技术趋于成熟,将其应用于在线交易风险识别已成为近几年相关领域的研究趋势。在有关在线交易风险识别的研究中,其主要的难点有两个方面:首先是欺诈行为只占所有交易行为的很小一部分,数据类别分布存在高度的不均衡性,其不均衡比例甚至可达万分之一,而且部分欺诈类样本与正常样本的特征信息存在高度的相似性,使得普通的分类方法难以有效识别这类欺诈行为,因此需要利用不均衡数据分类的方法来对其进行有效的识别检测。其次,欺诈行为是具有时效性的,由于欺诈平台或者是欺诈团伙为了应对反欺诈措施会不断更改其作案方式,因此造成分类器无法适应新的特征规则,进而导致其无法对欺诈行为进行有效识别,即概念漂移现象。针对在线交易欺诈检测中的类别不均衡分布以及数据流概念漂移两个主要问题,本文在结合前人研究成果的基础上,提出了基于XGBoost和SMOTE技术的改进算法M-XGB-SMOTE,其核心思想是结合XGBoost算法较强的二分类能力和SMOTE泛化能力强的优点,以AUROC评估分数为指标从多轮重采样训练分类器中筛选分类器,并基于上述分类器构建集成分类结果的预测模型,以期提升模型预测的综合性能。在以上算法构建的基础上,提出了基于历史样本抽样递减规律的算法MS-XGB-SMOTE,以期利用历史样本随时间推移重要性递减的规律减少模型受到数据流概念漂移带来的负面影响。在基于交易风险识别数据集的实验环节中,与传统的分类算法比较中可以看出,M-XGB-SMOTE的AUC综合指标显著高于其他算法的结果;在与传统不均衡数据流分类算法的比较中可以看出,MS-XGBSMOTE算法的综合预测能力有明显提升。