论文部分内容阅读
基于深度学习模型的图像分类器具有优良分类能力,但同时存在安全隐患,例如在原始图像样本上叠加微小扰动会使分类器产生分类偏差,攻击者利用该隐患对目标模型分类器进行攻击,称为对抗样本攻击,叠加扰动后的样本称为对抗样本。对抗攻击的本质是寻求最优扰动,使得对抗样本既能误导目标模型分类器且失真程度最小,即同时优化对抗攻击能力及对抗样本视觉质量。多数攻击场景下,攻击者对目标模型的了解十分有限,导致攻击者只能进行黑盒攻击。一类通用的黑盒攻击算法基于迭代寻优思想,通过不断查询目标模型分类器的分类结果动态调整扰动,最终实现对抗攻击。如何在有限次数的访问查询目标模型分类器的基础上获得最优扰动是实现对抗攻击的关键所在。针对现有黑盒攻击算法难以同时优化对抗攻击能力及对抗样本视觉质量的问题,本文提出基于多目标进化的图像对抗样本生成框架(MOEA-AEGF)。框架将对抗扰动编码成染色体个体,基于Pareto多目标进化理论寻优,寻优结果为一组具有多样性的Pareto最优扰动,攻击者能够根据主观偏好制定筛选策略最终确定对抗扰动进而实施对抗攻击。本文对所提框架中的个体编码、个体适应度评估、进化策略等模块展开研究,提出了MOEA-APGA算法,在灰度图像数据集(MNIST)的攻击实验中取得了较好的结果。高维彩色图像数据攻击场景下,由于维度空间急剧增大导致寻优空间变大,且进化效率受个体编码长度限制,进而导致攻击效率问题变得更为严峻。本文提出了改进算法MOEA-APGA II,首先对对抗攻击的成功先决条件进行理论分析并提出了基于预测概率序位的分段目标函数,减少了进化过程中的无效计算;在进化过程中引入启发式思想引导攻击,提出了关键位置优先扰动策略和基于动量的自适应变异幅值策略;结合图像的局部相关性提出了随机步长像素块变换合理缩小了攻击空间,解决了高维图像进化效率低,难以直接攻击的问题。所提出的算法在三个不同维度的基准图像数据集上的攻击实验结果表明,与目前现有的One-pixel攻击,ZOO攻击及Auto ZOOM攻击等黑盒攻击算法相比,所提算法能够在更少的访问查询条件下,取得更高的攻击成功率,同时保证对抗样本的视觉质量不会因此变差。并且通过攻击具有蒸馏防御的目标模型和结构更加复杂的深度学习模型验证所提算法的黑盒攻击能力。