论文部分内容阅读
在图像分类任务中原本可以被正确分类的图片,在添加一些细微的非随机扰动后形成的新的图片却使得深度学习分类模型以高置信度分类错误。更令人沮丧的是在同一训练集的不同子集上训练得到的具有不同设计架构的模型竟然都会对相同的对抗样本实现错误分类。对抗样本的存在使得深度学习在安全敏感性领域的应用收到了严重威胁,比如最近比较热门的自动驾驶。试想如果自动驾驶系统在驾驶时将停止标示误识别为前进或者左转,这对客户而言将会是多么危险的事情。然而最新的研究表明这确实是可能的。为了推动深度学习进一步在现实世界中安全性的应用,学术界有必要对对抗样本的产生以及如何进行有效防御这两个关键技术进行深入的探索和研究。 本文的创新点主要有: 针对已有对抗样本攻击算法速度慢或者迁移性差的问题,本文提出一种基于自编码器的对抗样本攻击算法。该算法利用自编码器强大的自我学习表达能力,通过设定特定的损失函数使其自动学习产生对抗样本。最后我们在MNIST、CIFAR10和ImageNet三个公开数据集上分别验证了攻击算法速度快和迁移性强的特点。另外通过修改损失函数的设计,本文提出的攻击算法可以实现多种形式的攻击。 针对已有对抗样本防御算法不够鲁棒的问题,本文提出一种基于扰动消除思路的对抗样本防御算法。根据单个图像容易被修改,但是所有图像所形成的分布很难被修改,提出利用对抗生成网络实现一种借助数据分布来去除图像中的扰动的防御新算法APE-GAN。并在MNIST、CIFAR10和ImageNet三个公开数据集上分别验证了本研究提出的防御算法的鲁棒性——可以有效降低各种攻击算法对目标模型的错误率,而且不需要对目标模型进行任何修改。 在未来的研究工作中,我们会把本研究提出的攻击算法与防御算法利用生成对抗网络的思想进行对抗优化学习,从而得到一种鲁棒性更强的防御算法。