论文部分内容阅读
近年来,机器学习极大地提升了图像识别能力。然而研究表明即使决策可靠的深度神经网络模型也容易受到对抗性攻击的影响。通过向合法样本添加微小扰动形成的对抗样本使模型产生缺乏可解释性的错误输出对系统的安全性造成严重地威胁。因此,本文利用注意力机制理解模型针对样本的决策依据,并从样本注意力图特征和注意力特征距离空间两个角度实现对抗样本检测方法研究。这对于解释对抗样本使模型出错的原因和实现对抗性防御具有实际意义。由于注意力机制针对合法样本与对抗样本的注意力图展现出特征信息差异。因此,本文进行基于注意力图特征的对抗样本检测方法研究。在利用样本单特征方面,本文设计基于注意力图纹理特征的检测方法。通过提取合法样本与对抗样本注意力图的基于灰度共生矩阵的纹理特征绘制特征统计直方图,并采用阈值策略。为了充分利用样本注意力图的特征信息,在利用样本多特征方面,本文又设计基于注意力图统计特征的检测方法。从合法样本与对抗样本的注意力图提取多种统计特征,包括均值、标准差、峰度,以及基于灰度共生矩阵的对比度、能量、相关性、熵,训练基于支持向量机的检测器。在卷积神经网络多个隐藏层的前向传递过程中,由于对抗样本具有不同于合法样本的注意力特征输出,因此本文进一步研究基于注意力特征距离空间的对抗样本检测方法。利用样本在模型多个隐藏层的注意力特征输出构成了注意力特征空间,并使用合法样本在各空间中进行中心点嵌入。通过计算注意力特征输出与中心点之间的相对位置序列编码注意力特征输出的轨迹过程。根据从合法样本和对抗样本获得的距离序列,训练基于长短期记忆网络的检测器。本文使用CIFAR-10和Image Net数据集,以VGG19和Res Net50作为目标模型,测试本文的检测方法针对基于梯度攻击的检测效果。结果表明,基于注意力图纹理特征的检测针对无目标迭代攻击的高维对抗样本的检测效果较好,检测AUC值接近100%。基于注意力图统计特征的检测针对有目标迭代攻击相比于仅利用纹理特征有所提升,对于CIFAR-10的检测AUC值提升了约10.3%。另外,基于注意力图特征的检测具有检测方式简单迅速的优势。基于注意力特征距离空间的检测针对单步和迭代攻击都具有优异的检测结果。针对CIFAR-10和Image Net的检测AUC均值分别约为97.02%和99.63%。本文设计的基于注意力机制的检测方法不仅增加了模型的可解释性,而且提升了系统的安全性。