论文部分内容阅读
机器学习是当前计算机科学中最流行的技术之一,它已被广泛应用于图像处理,自然语言处理以及网络安全等领域。尽管机器学习算法在许多实际应用中都取得了良好的效果,但近几年研究表明其本身面临着来自攻击者的各类安全威胁。在这些安全威胁中,投毒攻击是一种可以严重破坏机器学习模型有效性、完整性、可用性的诱发性攻击,它通过在训练阶段修改原始训练数据集中的样本或者向原始训练集中注入投毒样本,以诱导训练数据发生漂移,造成目标机器学习模型的性能明显下降。本文主要针对常见的机器学习算法,提出两种构造投毒样本的方法,并在此基础上进一步提出针对黑盒机器学习模型的投毒策略,研究它们对机器学习算法造成的安全威胁和性能影响。此外,针对投毒样本的特点,本文提出一种样本合法性评估方法,提高机器学习算法对投毒攻击的鲁棒性。本文的主要贡献有以下三个方面:(1)提出两种基于数据漂移的边界模式数据投毒攻击方法。当训练数据中的数据分布偏离实际数据分布时,就会出现数据漂移。而攻击者会刻意向原始训练数据集注入投毒数据,使训练数据集发生数据漂移。本文首先提出一种可以引起数据漂移的边界模式数据的定义以及检测方法,并在此基础上提出两种构造边界模式数据的方法——中心矢量外推法和分批边缘模式数据外推法,实现了对训练数据集的有效投毒攻击。此外,在网络数据检测数据集和手写字符数据集两个实际应用中实验表明,这两种投毒攻击方法会严重破坏六种常用的机器学习算法的性能。(2)提出针对黑盒机器学习模型的投毒攻击策略。在实际应用中,目标机器学习系统的具体信息是不易获取的,因而其对于攻击者来讲是一个黑盒机器学习模型。本文首先提出一种改进的SMOTE算法来进行部分训练数据进行扩增,并结合DNN算法来训练目标机器学习模型的替代模型,从而实现了对目标模型的窃取。在窃取模型的基础上,利用之前提出的两种投毒样本构造方法,设计实现不同的投毒攻击策略。此外,通过对不同投毒策略在网络入侵检测数据集上的实验,分析比较了不同投毒策略的性能。(3)提出基于多谱聚类聚合的样本合法性评估算法。当前针对投毒攻击的防御集中于数据清洗和提高算法鲁棒性两个方面,当缺少对样本合法性的评估方法。本文通过对现有投毒样本的特点进行分析,结合谱聚类和集成学习提出一种可以对样本的合法性进行打分的方法,实现对样本合法性有效的评估。并通过在入侵检测数据集上的实验验证了评估方法的有效性。实验结果表明,针对目前常用的机器学习算法,提出的投毒攻击方法可以有效地破坏其性能。而且投毒样本的构造算法实现简单,可以快速有效地构造投毒样本。在此基础上,本文提出的针对黑盒机器学习模型的投毒策略,可以在比较弱的敌手模型下实现对目标系统的有效投毒攻击,减少了攻击实现的条件。最后,在针对投毒样本的防御技术方面,本文提出的针对投毒样本的合法性评估方法,可以为机器学习算法对训练样本的使用提供合理的参考,提高算法的鲁棒性。