论文部分内容阅读
随着互联网的高速发展,在线支付成为人们日常生活中最常见的支付手段,而信用卡是当下最流行的在线支付手段之一,信用卡欺诈手段也逐渐变得多样化和复杂化,信用卡欺诈的原因也各不相同,有些人是为了从别人的信用卡账户中盗取资金,有些人则是为了使用别人的信用卡免费获得商品。信用卡欺诈每年会导致数以亿计美元的资金损失,因而设计一种有效的欺诈检测算法可以很好地帮住降低信用卡在使用过程中可能遇到的风险。以往的信用卡欺诈检测算法通常涉及数据挖掘和机器学习相关的技术,常见的有贝叶斯网络,逻辑回归,决策树,神经网络等,这些算法在此场景下都可以看作二分类的算法,它们对训练的数据往往有相对严苛的要求,即保证数据集中既有正常交易的样本数据,也有欺诈交易的样本数据,并且二者的样本数不能相差过大。但是在实际信用卡交易的数据集中正常交易数据的样本数要比欺诈交易数据的样本数多很多,也就是存在数据不平衡问题。不平衡的数据会导致常用的分类算法失去应有的效果,具体表现为算法只需要正确识别正常交易样本,而忽略欺诈交易样本就可以达到很好的精度,但这样训练得到的模型却无法很好地从交易数据中检测出欺诈交易。本文的工作是受kaggle上信用卡欺诈检测的比赛启发,比赛数据中欺诈交易样本只占整个数据集的0.17%,相对正常交易样本来说可以忽略不计,因而本文将信用卡欺诈检测问题拓展到单分类的场景进行研究,即训练数据只有正常交易样本的情况下,如何构建一个有效的信用卡欺诈模型。针对这种场景,本文尝试应用当下的深度学习方法来解决此问题,提出了一种结合自编码器和对抗生成网络的新算法用以检测交易数据中的欺诈样本,此算法可以看作单分类方法,属于无监督学习,只需要正常交易样本就可以很好地构建信用卡欺诈检测的模型,因而很好的解决了欺诈交易样本过少甚至没有的情况。本文的主要工作如下:(1)提出基于自编码器(Autoencoder)的特征提取方法,通过实验证明使用(稀疏)自编码器提取的关键特征能够更好地帮助模型学习得到正常交易样本和欺诈交易样本之间的边界。(2)提出基于对抗生成网络(Generative Adversarial Network)的信用卡欺诈检测模型。将(稀疏)自编码器提取的关键特征作为对抗生成网络的输入,用以训练对抗生成网络。在训练过程中,优化得到能正确识别正常交易样本和欺诈交易样本的判别器,最终将训练好的(稀疏)自编码器和对抗生成网络的判别器组合得到信用卡欺诈检测的模型。实验结果表明此模型相比当下的单分类的方法在信用卡欺诈检测中表现出更好的性能。(3)提出改进的信用卡欺诈检测模型,实验过程中我们发现使用原始对抗生成网络的训练时间相对较长,且最终结果依然存在不稳定的情况,因而本文对模型进一步改进,通过将生成器的生成目标从生成正常交易样本转变为生成欺诈交易样本,更好地帮助判别器学习正常交易样本和欺诈交易样本的边界,从而更好地识别欺诈交易。(4)将本文提出的算法拓展到垃圾新闻检测的场景,通过在新闻数据集上的实验对比证明本文算法在相似问题上的适用性。