论文部分内容阅读
近年来,深度神经网络已经在人类日常生活中得到广泛普遍的应用。但有研究表明这些模型并非完全可靠,它们容易受到对抗样本的攻击而做出违背人类直觉的判定。研究对抗攻击既可以作为衡量神经网络鲁棒性的基准,促进建立结构更合理、鲁棒性更强的模型。又可以作为保护人类隐私的手段,遏制利用深度神经网络恶意窃取个人信息的违法现象。
理想的对抗样本应在保持攻击成功率的同时不影响人类的正常判定,即兼具隐蔽性和攻击强度。针对对抗样本的隐蔽性,本文提出了一种基于注意力机制的空间转换对抗样本(A-stadv)生成算法。该算法首先利用基于梯度加权的类激活映射的注意力机制找到最具效果的攻击区域,再对该区域进行空间变换以实现对抗攻击。注意力机制可以在提高对抗样本的搜索效率的同时,通过滤除无关区域的扰动来保证攻击的高隐蔽性。攻击强度方面,本文着眼于难度更大的黑盒攻击,考虑通过提高对抗样本的跨模型迁移能力来对其进行改善,提出了一种基于小批量数据增强和Nesterov梯度优化的快速梯度迭代法(Mb-NI-FGSM)。该算法使用数据增强来缓解样本过拟合于特定模型的现象,同时利用Nesterov梯度优化保证在有限迭代步数下高效地找到对抗样本,从而取得更高的黑盒攻击强度。
为验证算法的有效性,本文在ImageNet数据集上,对目前结构较具代表性的模型进行对抗攻击实验。在隐蔽性实验中,在多种图像差异衡量标准下,与其他攻击方法相比较,A-stadv能够以更小的扰动量实现相同甚至更高的攻击成功率。在攻击强度实验中,无论是无防御模型还是有防御模型,Mb-NI-FGSM都表现出比当前最优算法更高的黑盒攻击强度,其中最高的黑盒攻击成功率达到94.6%,接近白盒攻击成功率。
理想的对抗样本应在保持攻击成功率的同时不影响人类的正常判定,即兼具隐蔽性和攻击强度。针对对抗样本的隐蔽性,本文提出了一种基于注意力机制的空间转换对抗样本(A-stadv)生成算法。该算法首先利用基于梯度加权的类激活映射的注意力机制找到最具效果的攻击区域,再对该区域进行空间变换以实现对抗攻击。注意力机制可以在提高对抗样本的搜索效率的同时,通过滤除无关区域的扰动来保证攻击的高隐蔽性。攻击强度方面,本文着眼于难度更大的黑盒攻击,考虑通过提高对抗样本的跨模型迁移能力来对其进行改善,提出了一种基于小批量数据增强和Nesterov梯度优化的快速梯度迭代法(Mb-NI-FGSM)。该算法使用数据增强来缓解样本过拟合于特定模型的现象,同时利用Nesterov梯度优化保证在有限迭代步数下高效地找到对抗样本,从而取得更高的黑盒攻击强度。
为验证算法的有效性,本文在ImageNet数据集上,对目前结构较具代表性的模型进行对抗攻击实验。在隐蔽性实验中,在多种图像差异衡量标准下,与其他攻击方法相比较,A-stadv能够以更小的扰动量实现相同甚至更高的攻击成功率。在攻击强度实验中,无论是无防御模型还是有防御模型,Mb-NI-FGSM都表现出比当前最优算法更高的黑盒攻击强度,其中最高的黑盒攻击成功率达到94.6%,接近白盒攻击成功率。