论文部分内容阅读
随着互联网金融科技和移动支付的快速发展,欺诈手段与方式不断升级。机器学习与深度学习被广泛应用于电子交易欺诈检测,良好的检测结果依赖于大量样本的数据集。然而在电子交易中,正常交易量达到百万时,欺诈样本只有一千多个。并且根据统计数据发现,欺诈交易比率通常低于0.1%。在这种正负样本极度不平衡的数据集中,如何生成一致性的数据分布,解决数据集样本不均衡的问题。因此,本文从以下三个方面展开研究:
首先,针对样本时间序列性对生成效果的影响,提出了基于长短期记忆网络的生成对抗样本方法与样本生成评估模型。该方法使用长短期记忆网络的记忆模块对稀疏的时序关系进行处理,利用生成对抗网络隐式建模数据分布,生成样本数据。并且,从纵向数据分布和横向属性相关性两个角度建立样本的一致性评估模型。在某银行真实电子交易数据的实验表明,相比其他生成模型,生成样本的一致性结果提高了10%左右,并且生成的样本数据增强了欺诈模型的检测效果。
其次,为克服输入噪声不具任何先验信息的问题,提出了基于自动编码器的对抗样本生成方法。对输入数据使用编码器获得样本特征空间,生成器与解码器合二为一,输入生成器的噪声是包含样本特征的先验噪声信息,从而指导生成器生成样本。同时也解决了模型在对抗过程中,生成器较弱容易受随机噪声干扰的问题。通过实验表明,与原有的数据生成方法相比,该方法在生成样本一致性评估上提高约8%。同样,生成的数据在原数据集中让检测模型分类效果更佳。
最后,设计并实现了电子交易负样本生成子系统。将构建的生成模型应用于系统层面。主要实现了两个功能:模型离线训练和样本数据生成。模型离线训练实现了对于需要解决不均衡问题的数据集,抽取数据,预处理数据,初始化模型和模型离线训练更新;样本生成模块是调用离线训练模块训练完成的数据生成部分,生成负样本数据并对结果分析。操作者可以通过这两大主要功能,可视化模型训练和数据生成流程,验证数据生成方法的可用性。
综上,针对如何生成分布一致的样本数据问题,本文提出基于生成对抗网络的交易负样本生成方法。引入长短期记忆网络处理电子交易的时序特征,加入自动编码器网络为生成器输入提供先验噪声信息,并搭建电子交易负样本生成子系统验证模型的有效性。在欺诈交易、信用卡欺诈检测等交易领域都具有一定的应用价值。
首先,针对样本时间序列性对生成效果的影响,提出了基于长短期记忆网络的生成对抗样本方法与样本生成评估模型。该方法使用长短期记忆网络的记忆模块对稀疏的时序关系进行处理,利用生成对抗网络隐式建模数据分布,生成样本数据。并且,从纵向数据分布和横向属性相关性两个角度建立样本的一致性评估模型。在某银行真实电子交易数据的实验表明,相比其他生成模型,生成样本的一致性结果提高了10%左右,并且生成的样本数据增强了欺诈模型的检测效果。
其次,为克服输入噪声不具任何先验信息的问题,提出了基于自动编码器的对抗样本生成方法。对输入数据使用编码器获得样本特征空间,生成器与解码器合二为一,输入生成器的噪声是包含样本特征的先验噪声信息,从而指导生成器生成样本。同时也解决了模型在对抗过程中,生成器较弱容易受随机噪声干扰的问题。通过实验表明,与原有的数据生成方法相比,该方法在生成样本一致性评估上提高约8%。同样,生成的数据在原数据集中让检测模型分类效果更佳。
最后,设计并实现了电子交易负样本生成子系统。将构建的生成模型应用于系统层面。主要实现了两个功能:模型离线训练和样本数据生成。模型离线训练实现了对于需要解决不均衡问题的数据集,抽取数据,预处理数据,初始化模型和模型离线训练更新;样本生成模块是调用离线训练模块训练完成的数据生成部分,生成负样本数据并对结果分析。操作者可以通过这两大主要功能,可视化模型训练和数据生成流程,验证数据生成方法的可用性。
综上,针对如何生成分布一致的样本数据问题,本文提出基于生成对抗网络的交易负样本生成方法。引入长短期记忆网络处理电子交易的时序特征,加入自动编码器网络为生成器输入提供先验噪声信息,并搭建电子交易负样本生成子系统验证模型的有效性。在欺诈交易、信用卡欺诈检测等交易领域都具有一定的应用价值。