论文部分内容阅读
近年来,人工智能算法在很多涉及安全的应用场景下得到广泛的应用。在这类场景下,人工智能模型的鲁棒性变得极为重要。然而人工智能特别是深度学习模型会因为训练不充分、过度的线性化等原因,导致模型对对抗样本产生错误的识别结果,影响人工智能的安全性。国内外研究人员解决对抗样本问题的主要手段是模型的对抗训练或者在模型网络结构上进行优化。模型的对抗训练能够被动的防御对抗样本的攻击而修改模型网络结构对依赖梯度的攻击能起到较好的防御效果。但这些防御方法都存在着防御方法单一,难以防御多种对抗样本生成算法的问题。为了增强当前防御方法的普适性,本文提出了一种改进的对抗训练方法。本文的研究内容主要分为两个部分:第一部分,本文分析了现有的五种针对图像分类器的对抗样本生成算法,发现这五种对抗样本生成算法产生的扰动噪声都集中在较小的扰动范围内,只有少数的像素点会产生较大的像素扰动,这些噪声会扰乱分类器的识别结果。我们提出了面向小像素扰动的基于遗传算法的敏感区域搜索方法,并使用敏感区域中的样本进行对抗训练来测试模型鲁棒性的提升效果;第二部分,经过测试发现基于遗传算法的对抗训练能够对FGSM、IFGSM、DeepFool等产生小像素扰动的对抗样本生成算法起到防御效果,然而依然无法有效防御JSMA和C&W对抗样本生成算法。分析发现对JSMA防御能力偏弱是因为该算法会产生较大像素扰动超出了遗传算法的搜索范围,而对于C&W算法则是因为该算法产生的对抗扰动非常小,在迭代次数限制下遗传算法能难找到与之相似的扰动。为了进一步提高防御能力,本文对基于遗传算法的对抗训练进行了改进,提出了基于Denoising U-Net结构的输入数据降噪优化处理方法,能够对JSMA算法和C&W算法的扰动进行针对性降噪处理,进一步提高了基于遗传算法的对抗训练对这两类攻击算法的防御能力。相比传统的使用对抗训练来提高模型鲁棒性的方法,本文所提的方法在一定程度不依赖模型梯度信息,能够提高模型对多种攻击算法的防御能力。最后,本文研究了该方法对五种对抗样本生成算法的防御能力,并与蒸馏防御和PGD对抗训练两种模型增强方法进行了对比。结果表明,本文提出的降噪对抗训练方法能够进一步的提高模型的鲁棒性,使多种对抗样本生成算法的攻击成功率下降了10%到80%。