面向医疗数据机器学习的隐私保护方案研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:f2062325
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
世界医疗卫生事业经历了从临床常态化阶段到信息化普及阶段的重大演变,机器学习推动了智能医疗的发展。目前已经提出了一些辅助给药方案为准确分配胰岛素剂量提供支持,但是传统的个性化给药服务总是以明文形式收集和传输医疗数据,这造成了隐私泄露的风险。另外,基于小型医院有限的标签数据难以训练出准确的模型,医院将未标记的医疗数据外包给拥有云服务器的医疗服务提供商(Health Care Provider,HCP),云服务器利用医院的无标记目标域数据和自身的源数据采用域适应方法对模型进行训练。恶意用户可利用训练数据标签,从而发起基线增强成员推理攻击。泄露的数据可能会被攻击者滥用以此推断用户隐私信息,攻击者能够出于经济或犯罪目的获得不正当利益。因此,解决机器学习中医疗数据的隐私保护问题迫在眉睫,本文针对以上问题进行了深入研究,并提出了以下方案:(1)针对个性化胰岛素给药方案中数据传输造成的隐私泄露问题,本文提出基于强化学习的优化胰岛素剂量隐私保护方案。该方案利用加法秘密共享和边缘计算来实现数据加密和性能优化,将医疗数据均匀随机划分为多个秘密外包给边缘服务器以实现秘密共享。在强化学习的计算任务中,通过本文提出的加法秘密共享协议对数据进行加密和处理,该协议通过轻量级加密机制保护隐私,以保证秘密共享系统较低的工作量。本文提供了理论分析和实验结果,证明了该方案在计算开销上有显著的优势。(2)针对基线增强成员推理攻击(Membership Inference Attack,MIA)对于域适应中医疗数据的隐私泄露问题,本文提出基线增强成员推理攻击差分私有域适应方案。通过标准化深度学习模型来减少过度拟合实现保护隐私,考虑到模型的有效性和数据隐私性,其中差分隐私(Differential Privacy,DP)噪声只会添加到指定的梯度中。本方案对源数据和目标数据分别进行训练,源数据通常来自公开的训练数据集,因此在训练过程中只对未标记的目标数据添加噪声。此时,对模型的最强隶属度推理攻击相当于随机猜测,即最大成员隐私。通过在基准数据集上进行实验,得出方案在保证模型精度的前提下,能够有效地抵御基线增强成员推理攻击的干扰,满足域适应过程中严格的隐私保护需求。
其他文献
软件架构定义了系统结构并决定其质量,确保软件架构的合理性和可维护性对后续开发至关重要。架构异味是软件技术债务的具体表现形式之一,表明系统中存在潜在的问题,它们在软件开发的过程中不断积累且反复出现,阻碍了软件的可维护性和可重用性。除了传统架构中会存在架构异味外,近年来广受关注的微服务架构也受到微服务架构异味的影响。目前,对传统架构异味的定义已比较明确,但对其进行检测的效率和覆盖范围还有待提升;另一方
学位
微服务的诸多优良特性,如可伸缩性、可维护性,促使更多的决策者选择将单体迁移到微服务。研究人员们也提出了多种微服务拆分方法。然而,如何在迁移过程中适当拆分微服务仍然是一个棘手的问题。首先,不同领域的单体迁移需求各不相同,如何选择合适的微服务拆分方法却很少受到关注。其次,当前的微服务拆分主要依赖于架构师或领域专家,这比较主观且耗时。而半自动化或自动化的微服务拆分方法仅能产生粗粒度的结果,并且受不同系统
学位
现实世界中存在着如电力、交通等各种各样的复杂系统,在这些系统中存在着形形色色的实体及实体间的关系。网络这一数据形式由于具有表达实体间关系的能力,被广泛的应用于复杂系统的建模。基于这些真实的系统,研究人员发展了网络科学理论并提出了一系列的相关问题。作为网络科学领域中的基础问题之一,网络拆解目的在于从网络中选择一组节点,使这些节点的移除可以显著削弱网络的连通性能。而网络的连通性对于结构鲁棒性、信息传播
学位
在各种推荐系统中,用户对项目的数值评分和文字评论是反馈其偏好的主要信息。然而,传统的仅借助用户的评分来进行推荐的模型,如协同过滤,在数据非常稀疏的场景下无法有效工作。当前的一些仅使用评论信息进行推荐的模型也会受到评论稀疏性的影响。一方面,大多数场景下用户给出评分和评论都是相互关联和互补的,评论可以解释为什么用户对这个项目给予高或低的评分。另一方面,评分和评论分别从粗粒度和细粒度两个层面反映了用户的
学位
在科技迅速发展的时代,人们青睐于在各类平台上发表观点,产生大量的评论文本如电影评论、产品评论等。针对这些评论信息进行情感分析,可以指引消费者购买商品和观影,协助他们快速地做出判断。此外,也为生产者带来改进意见,促进产品质量的提高。因此,对这些评论文本进行情感分析具有重要的意义和价值。评论文本不仅基数大,而且生成的特征表示维度高且存在信息冗余。特征选择能够过滤冗余信息,更有效地进行情感分析。然而,现
学位
RGBT目标跟踪由于其全天时、全天候下卓越的跟踪性能受到了人们的广泛关注,现有的方法通过设计融合模块来实现有效的多模态融合,然而这些融合方法缺乏足够的表达能力,很难应对复杂的现实场景。此外,融合的RGBT特征有噪声和冗余,其中一些无用的特征甚至干扰目标的定位并导致过拟合问题。为了解决上述两个缺陷,本文围绕增强特征信息与特征选择展开研究,论文的主要工作如下:第一,给出了一种基于交叉注意力的RGBT目
学位
在数据可用性不断增强的现实背景下,聚类分析作为挖掘数据之间关联性的重要工具得到了广泛应用,该方法采用无监督的机器学习方式,从无标记的海量数据集中获取有价值的信息和知识。K-ea算法是其中最经典的优化模型之一,因其具有操作简单、局限性已知、能够迅速收敛等优点,被应用于各种聚类分析领域。然而K-ea算法具有易错误初始化类簇中心、易迭代陷入局部最小值、非凸型数据集处理性能差等问题,使得该算法的聚类划分结
学位
随着科学技术的快速发展,用户可获取的信息越来越多,随之而来的“信息过载”问题造成了用户很难在海量信息中快速定位自身所感兴趣的内容。推荐系统作为解决这一问题的有效手段而受到广泛的重视。然而随着用户和项目的数量不断增长,导致个性化推荐面临着一些挑战:其一,用户对项目的历史交互信息中包含着丰富的数据信息,如何有效的建模这些数据来学习户和项目的特征,对于预测用户的偏好至关重要。其二,现有的低阶线性推荐模型
学位
近年来心血管疾病对于人类的危害日益加深,已经逐渐成为全球死亡人数最高的疾病之一。因此,有效的辅助医生快速且准确获取病变区域信息可以帮助医生诊断病情以及制定有效的治疗方案。目前针对这方面的研究主要是从心血管图像中分割出目标区域并根据分割结果来计算临床指标,医生可以根据这些指标数据来对患者病情进行诊断。早期心血管图像分割主要是依赖于临床医学工作者手工从心血管图像中轮廓,这种方式不仅非常耗时而且效率低下
学位
随着5G应用的快速普及,数据的规模持续增长。由于这些数据中通常包含着大量的杂乱信息,数据挖掘方向吸引了广泛的关注。其中,基于决策树的集成学习由于其精度高且能快速处理很高维度的数据等优点而被广泛使用。决策树所使用的数据往往包含大量的敏感信息,如果直接参与训练可能会泄露隐私。差分隐私是目前在数据挖掘领域常用的数据隐私保护方法,尤其基于决策树的差分隐私保护集成学习算法,一直是研究热点。本文围绕差分隐私保
学位