保护数据隐私的领域自适应算法的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liubmhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据如何流通、共享,发挥其要素价值被更多地方利用到社会生产生活中是数字经济时代一个重要的问题。在数据的隐私性越来越受关注的时代,如何让互联网上大量的数据资源在不泄露隐私的条件下被用于深度学习模型训练能够有力推动数据的价值被充分挖掘。领域自适应研究如何解决在源域上训练的机器学习模型在遇到分布偏移的目标域时怎样提升模型在目标域数据上的性能的问题,近些年已经取得了很大进展。但是现有的领域自适应方法要求源域数据和目标域数据共同存储在同一个地方并同时进行训练,这在实际应用中很可能无法满足。因为数据隐私性的限制,源域数据和目标域数据经常必须严格分离开并且互不可见。本文采用差分隐私框架对领域自适应的训练做出分析,并采用密度估计和分布近似等方法提出了一个框架让领域自适应算法能够在训练过程中保证数据隐私性。本文主要做了如下两个工作:(1)为了解决源域数据的隐私性问题,本文采用对源域特征进行分布近似的方法,提出了一个能够严格保证源域数据隐私性的领域自适应框架,这个框架的流程中支持模型训练在源域和目标域数据完全分离的条件下完成,并且对两方没有任何协同要求。本文提出的方法与现有的领域自适应研究相互垂直,所有的领域自适应方法都可以用我们的框架来保证训练过程中源域数据的隐私性,此外本文也自己设计了一种领域自适应算法让目标域模型训练过程中不用使用到除源域模型以外的任何源域相关信息。本文提出的框架在四个不同的数据集上做了实验验证,结果显示本文所提出的方法可以在保护源域数据隐私的前提下在领域自适应任务上得到与现有方法接近的精度,只是隐私保证会带来一定程度的下降,当数据量和计算充足时隐私保证带来的精度损失可以忽略不计。(2)为了解决目标域数据的隐私性问题,本文采用对目标域特征进行分布建模的方法提出了一个能够严格保证目标域数据隐私性的领域自适应框架,在训练过程中,源域数据方、目标域数据方和模型计算方三者可以完全分离,计算方可以在完全不直接接触目标域数据的条件下完成模型的训练,这一过程严格保证数据隐私性。这可以作为互联网上包含隐私信息的数据如何被有效利用来训练模型这一问题的一种解决方式。本文在三个不同的数据集上进行了实验以验证所提出方法的有效性,结果表明在计算量或数据量充足的情况下,本文所提出的方法可以在保证数据隐私的条件下在领域自适应任务上得到与现有领域自适应方法接近的结果。
其他文献
目的 探讨康妇灵片联合甲硝唑呋喃唑酮栓治疗慢性宫颈炎的临床疗效。方法 选取2020年7月—2022年5月南阳市中心医院妇科收治的116例慢性宫颈炎患者,按照随机数字表法分为对照组和治疗组,每组各58例。对照组患者给予阴道外用甲硝唑呋喃唑酮栓,用一次性手套将药栓置入阴道后穹窿部位,睡前用药,1枚/次,隔日1次。治疗组在对照组的基础上口服康妇灵片,3片/次,3次/d。两组均连续用药7 d。观察两组的临
<正>教学实录(执教:贾志敏)一、故事导入,引出课题(师课前板书字词:领袖、吩咐、饶恕、押、狠心、肝脏、挽弓搭箭)师:同学们好!一起读这两个字,预备,读——(板书:故事)生:故事。师:读得快一点行吗?生:故事。师:同学们十有八九都喜欢听故事,连我这个七十几岁的老人还喜欢听故事,故事里面有欢笑,故事里面有精彩,故事里面还有智慧。故事分为好几种:
期刊
【目的】:分析不同出血量的高血压性脑出血患者神经元特异性烯醇化酶的变化与患者神经功能缺损程度及其预后的相关性,为评估高血压性脑出血患者远期预后提供理论上的依据。【方法】:选取2021年1月至2021年12月延安大学咸阳医院神经外科收治的36例符合入排标准的脑出血患者,入院立即采集患者的临床资料、影像资料。根据出血量分为A组(20ml-30ml)、B组(30ml-40ml)。分别检测病例入院时(发病
针对人体生物学特点及户外步行助行要求,设计了一款下肢步行助力外骨骼机器人。为实现外骨骼机器人对人体下肢助力柔顺性目标,研究并提出了模糊自适应PID控制方法。在MATLAB/SIMULINK中搭建仿真模型,比较外骨骼关节力矩控制分别采用传统PID及模糊自适应PID控制算法的跟随效果。由仿真和试验结果可知,模糊自适应PID算法相较于经典PID算法具有响应速度快、超调量小等优点。模糊自适应PID算法对关
在强化学习中,智能体不断与环境交互并根据环境给出的评价式反馈信息学习最优控制策略。但是当环境没有提供反馈信息或是反馈信息不能准确地被量化时,强化学习方法的应用会受到很大限制。模仿学习是一种不依赖环境反馈信息的学习方法,其从专家示范轨迹中就能学得性能良好的控制策略。针对模仿学习方法的学习效率以及多模态模仿学习的性能问题,本文提出一种加快学习速度的框架以及提升多模态模仿学习性能的方法。主要的研究内容可
目的:利用生物信息学筛选出Graves病(GD)患者外周血B细胞中差异表达的miRNA,构建miRNA-mRNA调控网络,为GD治疗提供新靶点。方法:采用微阵列技术检测初发GD患者和健康受试者外周血CD19+B细胞中miRNA和mRNA表达谱。利用TargetScan和miRBase数据库对差异miRNA的靶基因进行预测,与差异mRNA取交集,筛选出目的靶基因。构建miRNA-mRNA差异表达网络
压力容器的设计主要采取常规设计法和可靠性设计法两种形式,常规设计法更加简单直观,但无法应用于未包含在规范中的其他容器结构设计中,不利于新型设备的研发和应用。从实际生产测试数据分析得出,影响压力容器强度以及载荷水平的外界因素较多,因此在进行压力容器设计时采用可靠性方法非常必要,也是压力容器设计的发展趋势。
试验采用了A-O中试反应器处理生活污水,在pH为8.5左右,氨氮浓度为300mg/L左右,严格控制溶解氧的情况,实现了短程硝化反硝化。结果表明,在反应初始阶段,通过严格控制反应器的DO浓度在0.5mg/L以下,运行一个月后,可以实现亚硝酸盐的积累,亚硝酸盐氮的积累率达到85%左右。稳定运行一段时间后,通过外加甲醇,亚硝酸盐氮逐渐较低,总氮去除率达到70%左右。