论文部分内容阅读
爆发式数据增长为人类社会带来了机遇和考验。一方面,人们对大数据的分析和处理能够推动人工智能的快速发展,为各行各业输出巨大价值;另一方面,分析和处理大数据的过程不可避免会涉及隐私泄露这一重要问题,给人类生活带来严峻挑战。人们面临的困扰将不仅限于个人敏感信息的泄露,还在于基于大数据分析和处理对人们行为的预测。机器学习和深度学习作为实现人工智能的重要方法,其旨在赋予计算机从大规模训练数据集中学习和分析数据的能力。然而,这些代表性数据集中可能包含个人的敏感信息,如财务状况、家庭住址、消费记录等。在机器学习和深度学习模型的训练过程中,敏感的个体特征可能在不经意间被记住,从而导致隐私泄露。此外,不受信任的数据管理者、训练参与者和外部攻击者可能试图通过构建个性化的攻击模型推断训练数据中的隐私信息、重构敏感特征,甚至提取训练数据中的独立属性。因此,大数据分析和处理过程中面临的隐私泄露问题不容忽视。作为一种主流的隐私保护技术,差分隐私不仅基于强大的背景知识假设,还建立在坚实的数学基础之上,为模型提供可证明的隐私保证。基于差分隐私技术训练机器学习和深度学习模型能够有效保护训练数据中的敏感信息,并缓解针对敏感信息的重构和推断。近年来,大量差分隐私机器学习和深度学习模型相继被提出,并在数据安全和隐私保护领域收获了丰硕的果实。然而,传统的差分隐私机器学习和深度学习模型通常面临隐私预算总量过高、模型性能较低等问题,为数据隐私保护与模型准确度之间的权衡带来严峻挑战。本文针对传统面向数据分析的差分隐私保护方法中的不足之处,在有效缓解模型训练过程中面临的敏感信息泄露问题的同时,依据动态隐私需求感知和隐私按需保护的现实需求,深入研究基于目标扰动、输出扰动和梯度扰动的个性化噪声扰动方案,建立新型隐私预算分配规则,为模型的隐私保护水平提供严格且全面的证明,并合理权衡模型性能、数据可用性及隐私保护水平之间的平衡问题。本文的主要研究内容包括以下五个部分:(1)针对回归模型中面临的敏感信息泄露问题,且依据现存的差分隐私回归分析方法仅聚焦在对敏感信息的保护却忽视了模型性能的状况,本文提出了基于相关性的差分隐私回归分析方法。该方法首先计算模型输入特征与模型输出结果之间的相关性,并根据计算出的相关性设立阈值将输入特征界定为强相关特征与弱相关特征。然后将模型的目标函数表示为多项式的形式,通过向与强相关特征关联的多项式系数中添加少量噪声,向与弱相关特征关联的多项式系数中添加大量噪声的方式,实现具有针对性的噪声扰动。在标准数据集上的实验证实,基于相关性的差分隐私回归分析方法能够有效缓解传统差分隐私回归分析方法中存在的问题。(2)在上述模型的基础上,针对设置固定阈值区分强相关特征与弱相关特征的方法具有普适性较差、模型准确度较低等缺点,我们设计了基于动态隐私预算分配的差分隐私回归分析算法。该算法基于每个输入特征对模型输出的不同贡献度,采用向多项式形式的目标函数的系数中添加动态噪声的方式完成对目标函数的动态扰动。此外,我们基于反向攻击模型实现了对该算法所能提供的隐私保护强度的验证。在标准数据集上的实验证明,该算法不仅提升了相同隐私保护水平下的模型准确度,也在缓解模型反向攻击问题上取得了显著成效。(3)在差分隐私深度神经网络模型中,同样存在模型性能与隐私保护水平之间的平衡问题。面对神经网络复杂的模型结构,且为了在有效缓解深度神经网络面临隐私威胁的同时缩小隐私模型与非隐私模型之间的精度差,本文提出了具有普适性的差分隐私深度神经网络框架。该框架将每个神经元视为一个特征属性,根据不同层神经元与模型输出的关联性,在反向传播过程中对每层神经元损失函数的梯度进行适应性扰动。该框架作为一种通用机制,其不仅实现了对随机梯度下降优化方法的适应性扰动,也完成了对Momentum和Adam优化方法的适应性扰动。充分的隐私保护水平分析和实验论证了该框架具有较好的性能。(4)多方联合学习旨在避免服务器端与客户端训练数据之间的直接接触,其采用交换模型参数的方式在一定程度上规避了隐私风险。然而,在上传的模型参数没有得到充分保护的情况下,客户端本地训练数据中的敏感信息仍然面临被窃取的可能。此外,传统的基于安全多方计算、同态加密等隐私保护技术的多方联合学习方法存在计算效率低、通讯开销大等难点。因此,本文提出了基于自适应隐私损失分派的差分隐私多方联合学习方法。该方法首先借助零集中式差分隐私技术为多方联合学习模型提供了强大的隐私保证和严格的隐私界限。然后依据随着模型参数逐渐接近最优、逐步增加分派给模型参数的隐私损失能够有效减少总隐私预算量累计的理念,我们设计了自适应的隐私损失分派算法。合理的隐私性评释和实验阐明了该方法能够在最大化模型性能的同时,有效降低隐私预算总量。(5)作为无监督学习模型的一种,生成对抗网络旨在捕获训练数据的潜在分布并生成与训练数据极度类似的样本。然则,在对抗训练的过程中,深度模型的高复杂性促使生成对抗网络能够轻易地记住训练样本,从而增加了训练数据中敏感信息遭受隐私泄露的风险。因此,本文提出了基于个性化噪声衰减策略的差分隐私生成对抗网络。我们首先采用在判别器优化过程中向梯度中添加基于截断集中式差分隐私技术的高斯噪声的方式实现对判别器的差分隐私保护。同时,基于差分隐私的后处理性质,生成器的参数依然受到差分隐私保护。然后,我们设计了两种个性化的噪声衰减策略,从而为模型性能和隐私保护之间的权衡提供了一种更加直观的处理方式。根据不同的现实场景需求,我们选择不同的噪声衰减策略。严格的隐私界限分析和实验充分证明了该算法不仅抵御了生成对抗网络训练样本面临的隐私威胁,也具备有效缓解成员推断攻击的能力。