面向数据分析的差分隐私保护方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:junxiaohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爆发式数据增长为人类社会带来了机遇和考验。一方面,人们对大数据的分析和处理能够推动人工智能的快速发展,为各行各业输出巨大价值;另一方面,分析和处理大数据的过程不可避免会涉及隐私泄露这一重要问题,给人类生活带来严峻挑战。人们面临的困扰将不仅限于个人敏感信息的泄露,还在于基于大数据分析和处理对人们行为的预测。机器学习和深度学习作为实现人工智能的重要方法,其旨在赋予计算机从大规模训练数据集中学习和分析数据的能力。然而,这些代表性数据集中可能包含个人的敏感信息,如财务状况、家庭住址、消费记录等。在机器学习和深度学习模型的训练过程中,敏感的个体特征可能在不经意间被记住,从而导致隐私泄露。此外,不受信任的数据管理者、训练参与者和外部攻击者可能试图通过构建个性化的攻击模型推断训练数据中的隐私信息、重构敏感特征,甚至提取训练数据中的独立属性。因此,大数据分析和处理过程中面临的隐私泄露问题不容忽视。作为一种主流的隐私保护技术,差分隐私不仅基于强大的背景知识假设,还建立在坚实的数学基础之上,为模型提供可证明的隐私保证。基于差分隐私技术训练机器学习和深度学习模型能够有效保护训练数据中的敏感信息,并缓解针对敏感信息的重构和推断。近年来,大量差分隐私机器学习和深度学习模型相继被提出,并在数据安全和隐私保护领域收获了丰硕的果实。然而,传统的差分隐私机器学习和深度学习模型通常面临隐私预算总量过高、模型性能较低等问题,为数据隐私保护与模型准确度之间的权衡带来严峻挑战。本文针对传统面向数据分析的差分隐私保护方法中的不足之处,在有效缓解模型训练过程中面临的敏感信息泄露问题的同时,依据动态隐私需求感知和隐私按需保护的现实需求,深入研究基于目标扰动、输出扰动和梯度扰动的个性化噪声扰动方案,建立新型隐私预算分配规则,为模型的隐私保护水平提供严格且全面的证明,并合理权衡模型性能、数据可用性及隐私保护水平之间的平衡问题。本文的主要研究内容包括以下五个部分:(1)针对回归模型中面临的敏感信息泄露问题,且依据现存的差分隐私回归分析方法仅聚焦在对敏感信息的保护却忽视了模型性能的状况,本文提出了基于相关性的差分隐私回归分析方法。该方法首先计算模型输入特征与模型输出结果之间的相关性,并根据计算出的相关性设立阈值将输入特征界定为强相关特征与弱相关特征。然后将模型的目标函数表示为多项式的形式,通过向与强相关特征关联的多项式系数中添加少量噪声,向与弱相关特征关联的多项式系数中添加大量噪声的方式,实现具有针对性的噪声扰动。在标准数据集上的实验证实,基于相关性的差分隐私回归分析方法能够有效缓解传统差分隐私回归分析方法中存在的问题。(2)在上述模型的基础上,针对设置固定阈值区分强相关特征与弱相关特征的方法具有普适性较差、模型准确度较低等缺点,我们设计了基于动态隐私预算分配的差分隐私回归分析算法。该算法基于每个输入特征对模型输出的不同贡献度,采用向多项式形式的目标函数的系数中添加动态噪声的方式完成对目标函数的动态扰动。此外,我们基于反向攻击模型实现了对该算法所能提供的隐私保护强度的验证。在标准数据集上的实验证明,该算法不仅提升了相同隐私保护水平下的模型准确度,也在缓解模型反向攻击问题上取得了显著成效。(3)在差分隐私深度神经网络模型中,同样存在模型性能与隐私保护水平之间的平衡问题。面对神经网络复杂的模型结构,且为了在有效缓解深度神经网络面临隐私威胁的同时缩小隐私模型与非隐私模型之间的精度差,本文提出了具有普适性的差分隐私深度神经网络框架。该框架将每个神经元视为一个特征属性,根据不同层神经元与模型输出的关联性,在反向传播过程中对每层神经元损失函数的梯度进行适应性扰动。该框架作为一种通用机制,其不仅实现了对随机梯度下降优化方法的适应性扰动,也完成了对Momentum和Adam优化方法的适应性扰动。充分的隐私保护水平分析和实验论证了该框架具有较好的性能。(4)多方联合学习旨在避免服务器端与客户端训练数据之间的直接接触,其采用交换模型参数的方式在一定程度上规避了隐私风险。然而,在上传的模型参数没有得到充分保护的情况下,客户端本地训练数据中的敏感信息仍然面临被窃取的可能。此外,传统的基于安全多方计算、同态加密等隐私保护技术的多方联合学习方法存在计算效率低、通讯开销大等难点。因此,本文提出了基于自适应隐私损失分派的差分隐私多方联合学习方法。该方法首先借助零集中式差分隐私技术为多方联合学习模型提供了强大的隐私保证和严格的隐私界限。然后依据随着模型参数逐渐接近最优、逐步增加分派给模型参数的隐私损失能够有效减少总隐私预算量累计的理念,我们设计了自适应的隐私损失分派算法。合理的隐私性评释和实验阐明了该方法能够在最大化模型性能的同时,有效降低隐私预算总量。(5)作为无监督学习模型的一种,生成对抗网络旨在捕获训练数据的潜在分布并生成与训练数据极度类似的样本。然则,在对抗训练的过程中,深度模型的高复杂性促使生成对抗网络能够轻易地记住训练样本,从而增加了训练数据中敏感信息遭受隐私泄露的风险。因此,本文提出了基于个性化噪声衰减策略的差分隐私生成对抗网络。我们首先采用在判别器优化过程中向梯度中添加基于截断集中式差分隐私技术的高斯噪声的方式实现对判别器的差分隐私保护。同时,基于差分隐私的后处理性质,生成器的参数依然受到差分隐私保护。然后,我们设计了两种个性化的噪声衰减策略,从而为模型性能和隐私保护之间的权衡提供了一种更加直观的处理方式。根据不同的现实场景需求,我们选择不同的噪声衰减策略。严格的隐私界限分析和实验充分证明了该算法不仅抵御了生成对抗网络训练样本面临的隐私威胁,也具备有效缓解成员推断攻击的能力。
其他文献
生产力水平是国家经济增长的重要驱动因素,而制造自动化是提高生产力水平的关键与核心技术,使得可用更少的资源,如原材料、设备和劳动力,生产更多的高技术产品。从技术上说,现代自动制造系统是一种资源分配系统,其子进程往往需要竞争有限的可重用资源以并发执行不同加工任务,因而自动制造系统中需要优化配置和共享这些有限资源。若没有有效鲁棒的控制策略来处理系统中可能出现的死锁和阻塞等情况,就无法达到最优的资源配置。
学位
宽禁带氧化物半导体是一种集导电性和光学透明性于一身的独特材料,被广泛应用在电子器件和光电器件,例如:薄膜晶体管、气体传感器、日盲探测器、太阳能电池、发光二极管和透明电子器件等众多领域。目前,氧化物薄膜晶体管主要应用在平板显示器的像素开关、驱动器以及透明电子电路等方面。在其众多材料制备方法中,溶液法是一种制备金属氧化物薄膜晶体管的很有前途的制造技术,因为它具有高产出、低成本,组分可控,操作简单,环境
学位
机器学习是人工智能的核心技术,已经应用于现代社会各行各业。机器学习算法的执行需要消耗大量计算和存储资源,通常需要借助强大的云平台才能实现各种复杂的机器学习任务。为了解决本地数据资源不足导致机器学习算法效果不佳的问题,用户通常选择将数据外包至云平台进行联合处理。用户上传的数据可能包含医疗信息、地理位置、金融记录等敏感信息,将数据外包给云平台剥夺了用户对数据的控制权,进而导致了一系列的数据安全威胁与隐
学位
数字经济的到来加速了信息一体化的建设进程。联邦学习作为有效的分布式数据挖掘技术被广泛应用于大数据服务中。然而,产生大数据资源的云计算、边缘计算、物联网以及工业控制系统等多种复杂系统具有分散性、开放性、移动性、多安全性、异质性等特点,使得与之伴生的联邦学习技术面临着新的数据安全性和服务质量的双重挑战。为了实现高效安全的大数据服务,提升当前联邦学习中的隐私性、模型可验证性、模型完整性和模型可用性,本文
学位
具有优异隔离性、高集成性、良好抗辐照性,同时又兼有纵向IGBT器件众多优点的横向IGBT(LIGBT)器件,已成为功率半导体器件主要研究方向之一。LIGBT器件因电导调制效应获得极低的导通电阻和导通压降,但也导致了器件在关断时有大量过剩载流子存储在漂移区中无法快速耗尽,只能通过复合缓慢消失,产生了较长的电流拖尾现象,延长了关断速度,增大了关断损耗,非常不利于LIGBT器件在中高频环境下的应用,因此
学位
随着课程改革的推进和教育理念的革新,培育学生的核心素养成为教育的工作重心,在《关于全面深化课程改革落实立德树人根本任务的意见》中,明确指出学生发展核心素养的重要性,研究制定了学生发展核心素养体系,核心素养被置于深化课程改革、落实立德树人的基础地位,是所有学生应具有的最关键、最必要的基础素养,是适应终身发展和社会发展所需的必备品格和关键能力。生命观念中的“结构与功能观”这一基本观点在生命体各个层次中
学位
概念图是一种既可以提升课程教学质量,也可以提升学生学习积极性的教学工具。将概念图用于初中生物复习教学中,有利于减轻学生复习压力,使学生在直观看图、直观记忆的过程中巩固基础。研究概念图在复习中的应用策略,对于促进学生对初中生物知识的内化与吸收有着重要意义。文章简单介绍了概念图的定义及应用理论基础,综合初中生物复习教学案例指出教师可以通过直接呈现、提问引导、合作探究、习题训练等途径应用概念图,提升复习
期刊
视觉目标跟踪是计算机视觉领域的研究热点之一,广泛地应用于视频监控、自动驾驶、无人机和人机交互等领域。视觉目标跟踪的任务是给定目标的初始状态,即目标的初始位置和尺度,在视频序列的后续帧中持续地预测目标状态。视觉目标在运动过程中,容易受到外观形变、运动模糊、光照变化、局部遮挡和平面内旋转等干扰因素的影响,传统的视觉目标跟踪算法难以有效地区分目标和背景,时常导致跟踪失败。深度学习技术具有从大规模数据集中
学位
高功率/高能量飞秒激光在高次谐波产生、精密加工、基础研究等领域有着广泛应用。掺镱光纤激光由于量子效率高、热负荷小、光束质量好以及结构紧凑等优点,在高功率应用方向有着非常大的优势。在高功率飞秒光纤激光系统中,对非线性效应(尤其是自相位调制效应)的管理直接影响着系统输出的脉冲压缩质量。超快光纤激光系统中的非线性管理思路有两种:(1)利用非线性效应,以获得更短的放大脉冲宽度或提高脉冲压缩质量;(2)避免
学位
近-中红外波段的超短脉冲激光在微纳加工、双光子聚合、太赫兹产生、相干反斯托克斯拉曼散射、光通信、定向红外对抗系统等方向有着重要的应用价值。目前,主要通过以下两种方法获得近-中红外波段的光源,即激光增益介质的受激辐射放大和非线性频率变换的方法。近二十年,随着激光二极管(LD)技术不断发展成熟以及各种新型掺镱晶体的出现,1μm波段的高功率全固态飞秒激光器发展迅猛。但是,受限于增益介质的能级结构,利用受
学位