机器学习中训练数据的成员推断攻击及保护技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qjhsgw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着机器学习技术的快速发展以及计算设备算力的爆发式增长,机器学习在多个领域得到了广泛的应用并取得了显著的成效,包括图像识别、自然语言处理、在线推荐等领域。越来越多的公司和组织将机器学习集成到其服务和产品中,以提高服务质量和效率。然而,大量研究工作和真实案例表明机器学习存在严重的用户信息泄漏风险,给用户个人隐私安全带来严重威胁。因此,针对机器学习中用户数据隐私的研究已成为一个热点课题,引起了学术界与工业界的广泛关注。机器学习中数据隐私安全面临多种威胁和挑战,本文重点关注针对训练数据的成员推断攻击:给定一个机器学习模型和一个样本,推断该样本是否被用于模型的训练。虽然相关研究人员已经提出多种攻击和保护的方案,但现有工作仍存在诸多不足:(1)现有成员推断攻击仅揭示了在预先获得机器学习模型及其训练数据相关信息的条件下,训练数据成员隐私泄露的风险,而实际场景下没有目标模型相关信息、甚至仅有黑盒机器学习模型预测接口时的成员隐私泄露风险尚不明确;(2)现有成员推断防御需对被保护模型的结构和训练流程进行修改,或向模型预测输出中增加噪声,影响机器学习模型的可用性;(3)现有工作无法对机器学习模型的训练数据所有权进行有效的认证和保护,导致训练数据所有权的安全面临威胁与挑战。针对上述问题,本文将分别从成员推断攻击、成员推断防御以及训练数据所有权认证三个角度对训练数据所面临的隐私风险展开研究。本文的主要工作和创新点可归纳为:1.针对现有成员推断攻击所依赖的先验信息过于严苛的问题,提出了一种无需目标模型相关信息的成员推断攻击,表明在目标模型信息缺失的情况下,机器学习模型面临数据隐私泄露的风险。现有成员推断攻击需要目标模型及其训练数据的先验信息,用以构建可模拟目标模型预测行为的影子模型;随后利用影子模型获得目标模型在训练数据和非训练数据上预测行为差异,以执行推断攻击。然而在实际场景中,目标模型相关信息通常难以获得的,现有攻击无法构建影子模型。为此,本文提出一种基于训练数据先验信息的成员推断攻击,该攻击利用训练数据信息及对抗学习技术构造与目标模型具有相似预测行为的模拟模型,随后利用机器学习模型的迁移性进行推断攻击,打破了目标模型算法、结构的约束,可实现针对多种类型机器学习模型的成员推断攻击。2.在前述工作基础上,进一步提出一种仅需黑盒目标模型预测接口的成员推断攻击,揭示了在实际场景中部署的黑盒机器学习模型仍然存在数据隐私泄露的风险。现有成员推断攻击一般利用目标模型的预测输出,然而在黑盒场景下,目标模型在不同数据上的预测差异难以被捕获。为此,本文对目标模型的梯度信息与数据的成员属性之间的关联性展开研究,随后利用数据样本相对于目标模型的梯度来进行推断攻击。该推断攻击首先在给定目标样本周围通过构造局部线性模型的方式,获得给定样本相对于黑盒目标模型的近似梯度。随后利用目标模型相对于训练数据与非训练数据的近似梯度差异,从而在无需目标模型及其数据集先验信息的情况下,实现针对黑盒模型的成员推断攻击。3.针对现有成员推断防御对机器学习模型可用性有较大影响的问题,提出一种基于训练数据特征筛选及混淆的成员推断攻击防御方法,以实现成员隐私保护强度与模型可用性之间的平衡。现有成员推断攻击一般利用机器学习模型在其训练数据和非训练数据上预测输出的差异,因此现有防御手段主要集中在对模型过拟合的控制以及预测输出的扰动,极大地影响了模型的可用性。为此,本文针对直接面向训练数据的成员推断防御进行研究,提出一种成员推断防御。该防御从降低机器学习模型在不同数据之间预测差异的角度出发,通过筛选对模型预测行为具有显著影响的特征,并对该特征的特征值进行聚类扰动,缓解敏感特征值不同所导致的模型预测结果差异,缩小机器学习模型在训练集和测试集上预测行为的差异,从而降低训练数据集中成员隐私泄露的风险。所提防御无需对现有机器学习模型训练流程进行修改,可直接部署至多种机器学习模型中;同时可在成员隐私保护强度与模型性能之间取得良好的平衡。4.针对黑盒机器学习模型中训练数据所有权的保护问题,提出了一种基于成员推断攻击的训练数据所有权认证方法,以实现对训练数据非法盗用的检测。现有机器学习中所有权保护的工作主要集中在模型的所有权以及模型创建者的身份验证上。与现有工作不同,本文对训练数据所有权的保护展开研究。所提认证方法利用训练数据中的部分数据对不同机器学习模型的预测行为有相似影响的观察,使用成员推断攻击提取这些数据作为被保护数据集的指纹。随后通过验证指纹数据相对于给定模型的成员属性,验证模型训练数据的所有权。该工作表明成员推断攻击可用于揭示训练数据所有权与给定机器学习模型之间的关系。该认证方法仅需给定机器学习模型的黑盒接口,且无需对被保护数据进行修改;同时还可从训练数据为切入点,实现模型所有权的验证。
其他文献
基于Ⅲ族氮化物材料的深紫外发光二极管(LED)具有体积小、低功耗、寿命长、波长可调和环境友好等优点,有望代替传统的紫外汞灯光源,在水、空气净化、表面杀菌、生物探测等领域发挥重要的作用。但是由于材料内部位错密度较高、极化效应强、横磁模(TM)模式出光困难和载流子注入效率低等问题,目前深紫外LED的光输出功率和量子效率还较低。本文围绕以上关键科学问题,深入研究了大失配应力下氮化物薄膜材料的表面演化规律
当前大型水轮发电机已成为我国电力系统的主要发电力量之一。大型发电机一旦发生故障将会带来巨大的经济损失和恶劣的社会影响,保障其安全可靠运行对电力系统的安全稳定具有重要意义。统计结果表明,定子绝缘故障是最常见的发电机故障,为此,国内外对发电机绝缘状态监测技术开展了长期研究,局部放电(Partial Discharge,PD)监测是目前最有效且应用最广泛的绝缘监测手段。发电机在运行过程中,其定子绕组绝缘
拓扑物理学是物理学的一个重要研究方向,它的一个研究目标是探索各种拓扑物态相,并且调控和利用物质的各种拓扑性质。早期这些研究大多集中在凝聚态系统中。随着拓扑物理学的发展,人们也开始在其它量子多体系统,特别是各种人工量子系统中开展与拓扑物理学相关的研究。这些人工量子系统大多拥有极高的可操控性,这为在其中探索新的量子现象提供了非常有利的条件。在人工量子系统中模拟各种拓扑结构以及拓扑现象最常用的方法之一是
目前,X射线探测应用已经渗透到人类活动的方方面面,近至安防安检、无损检测和医疗成像,远至天文观测、国防军工和高能物理等,不一而足。为了提高探测器的性能,对其核心部件闪烁体的开发尤为重要。近年来,得益于低成本、易制备、重元素组分、高效发光和弱自吸收等优势,铅基卤化物钙钛矿(如Cs Pb X3)在闪烁体领域博得了广泛关注。然而,铅的生理毒性和环境污染饱受诟病,为了继承卤化物钙钛矿的闪烁体优势并规避铅毒
光在旋转体中的传播长久以来都是加速系统下电磁学的基本问题之一。通过谐振腔的旋转可以产生不同于传统光学系统的光传输和光散射现象,因此旋转腔作为一个物理内涵丰富、应用前景广阔的研究方向受到了普遍关注,例如光学陀螺仪在航天、航空和航海等重要领域被广泛使用。另一方面,光学微腔自从数十年前首次出现以来一直吸引着学者们的目光,从集成光子电路的相干光源到腔内量子力学,再到单光子发射器和生化传感器,微腔在光子器件
【背景】在伴有同源重组修复缺陷(homologous recombination deficiency,HRD)的卵巢癌中,聚-二磷酸腺苷核糖-聚合酶(poly-[ADP ribose]-polymerase,PARP)抑制剂疗效确切。但在同源重组修复功能完整的卵巢癌中,因无法有效诱导产生合成致死效应,PARP抑制剂疗效欠佳。【方法】利用体外试验和体内实验探究C/EBPβ与卵巢癌PARP抑制剂反应
在泌尿系统中,肾细胞癌(renal cell carcinoma,简称肾癌)是发病率最高的恶性实体瘤之一,约占肾脏全部恶性肿瘤的80%-90%。肾癌具有多种病理亚型,其中,肾透明细胞癌(clear cell Renal Cell Carcinoma,cc RCC)最为普遍,约占肾细胞癌的70%-80%。目前,针对肾透明细胞癌的治疗以手术结合分子靶向药物的综合治疗手段为主。虽然治疗手段的进步在一定程
微囊藻是最常见的水华蓝藻之一,因其中的部分种类能够产生具有急性毒性与促肿瘤作用的微囊藻毒素(microcystin,MC)而受到公众及相关研究人员的关注。武汉市湖泊众多,富营养化明显,近年来有关该地区湖泊水华的发生过程、生态危害、产毒藻株、毒素毒性机制、健康危害等研究的报道不多、资料较少。光照是驱动光合生物微囊藻生长代谢的重要力量之一,不同光照性质、强度、时间对微囊藻的生长、代谢及生物量积累有不同
目的:程序性死亡配体1(Programmed death ligand 1,PD-L1)作为肿瘤细胞表达的免疫检查点,能与T细胞上程序性死亡受体1(Programmed death 1,PD-1)结合,引起T细胞耗竭和功能阻滞,进而抑制抗肿瘤免疫反应。以单克隆抗体为主要形式的PD-L1阻断疗法已在临床肿瘤治疗中展现出良好的疗效,但同时也面临着全身性免疫副反应,有限的应答效率和高昂的治疗成本等问题,
由于激光等离子体加速等需求的牵引,皮秒太瓦CO2激光快速发展。然而,CO2分子增益谱的离散化与窄线宽成了该激光器发展的最大障碍。为了解决该类型激光器再生放大部分中CO2增益不连续导致的一系列频谱调制和脉冲分裂问题,本论文创新性地提出光电混合泵浦皮秒CO2激光再生放大器,提升CO2分子序列带增益占比,使序列带增益谱线与常规带增益谱线交叉重叠加密增益谱,解决增益谱离散化与窄线宽问题;提出并建立了混合泵