GWAS基因组数据的差分隐私保护方法

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:sh_xq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联研究GWAS作为基因组学重要研究方法,通过患病群体与正常群体的全基因组序列比对,利用统计分析发现对疾病发生有显著影响的遗传变异位点,即单核苷酸多态性SNP位点,再结合性别、年龄、种族等协变量,利用回归分析研究协变量与显著SNP位点对疾病的共同作用,从而揭示疾病发生的成因。然而在GWAS数据发布中存在两方面的隐私风险,首先,SNP显著性研究的基因型样本数据集以及其检验统计结果,会被匿名公布在研究网站上,也有患者自愿提供其基因型数据至公开的研究网站,这些基因型数据是识别个人身份、推测亲属基因、识别个体患病隐私的主要来源,但匿名和访问控制并不足以保护这些基因型数据,仍存在统计攻击、多数据库连接攻击、背景知识攻击的风险;其次,利用回归分析研究多个SNP以及协变量数据对疾病的共同作用时,往往通过代价函数计算得到回归系数,从而得到回归模型,即多个SNP以及协变量数据对患病概率的影响模型。但直接发布回归模型存在模型反演攻击,训练数据集会被重建造成泄露;若提供模型服务接口供研究者使用,则存在模型提取攻击的风险。GWAS的基因型数据发布以及回归模型的发布,都是为使研究者得到更多研究素材,衍生出更多统计学算法,从而催生更多新的发现。但其中存在的隐私风险无疑阻碍了数据的贡献、共享和发布。目前差分隐私被认为是最适合数据发布场景的隐私保护方法,差分隐私机制可以通过隐私预算来衡量扰动数据后的隐私风险。关于上述两方面隐私风险,目前的基因隐私保护工作只考虑了利用差分隐私对GWAS统计数据发布的保护,以及采用密码学、安全多方计算对基因型数据进行安全保护,但未考虑被公布在内部研究网站或者志愿者网站上的基因型数据的隐私问题,忽视了被发布的基因型数据的隐私问题,也尚未对回归分析模型泄露导致的隐私风险进行防范。针对这两点不足,本文具体研究工作如下:(1)总结了 GWAS隐私保护基础知识及GWAS隐私保护现状。首先总结了 GWAS的基础知识,包括遗传变异位点SNP、不同的遗传模型、统计检验方法、回归分析方法等等;其次,论文中用图示法展示了 GWAS的两个主要研究内容及其对应的研究方法、研究发布的结果;最后,针对不同的发布场景总结现有的隐私风险和保护现状。(2)针对GWAS基因型数据发布的隐私问题,本文将在第三章提出一种满足纳什均衡的差分隐私保护方法,实现了扰动后基因型数据隐私性与数据效用的均衡。我们将患者和研究者视为非合作博弈的两个参与者,基因型扰动个数为策略。患者关心隐私度量,研究者关心的是扰动后的效用-p值。首先根据期望效用,计算出目标基因型个数的合理干扰区间。其次,基于此区间,根据效用隐私收益矩阵,得到效用与隐私之间的纳什均衡点。最后,基于均衡点对原始基因型矩阵进行差分隐私扰动,得到相应的随机基因型矩阵。理论和实验结果均表明,该方法寻找到的基因型扰动个数能同时满足我们定义的最好的预期效用及隐私性。(3)针对GWAS回归模型发布的隐私问题,本文在第四章提出一种扰动代价函数从而计算新的回归系数的差分隐私保护方法。GWAS中大多数表型都是分类表型,需使用逻辑回归分析,因此本文主要关注逻辑回归模型的保护。由于代价函数本质代表回归模型预测值属于实际值的概率,而回归系数来自对代价函数的最大似然估计,因此不同于以往直接对逻辑回归系数加噪的保护方法,我们通过泰勒展开将代价函数由对数似然函数形式转换为低阶多项式,将原始多项式和扰动后多项式函数作差,称为“差函数”。我们仅对代价函数的差函数系数进行加噪,进而求解新的回归系数,保证扰动后的代价函数最逼近原始的代价函数,从而使新的回归系数的回归效果更接近原始的回归模型。经验证,该方法降低了数据集对噪声的敏感度,并且加噪的随机性也保证了一定的隐私性,使扰动后的回归模型具备较强隐私性的同时能保证较接近原始的预测准确率,可用于回归模型发布的隐私保护。
其他文献
本文以大同市区春夏两季道路灰尘为研究对象,利用X-Ray荧光光谱仪测定样品中V、Cr、Mn、Co、Ni、Cu、Zn和Pb元素的含量,应用高效液相色谱仪分析大同市区春夏季道路灰尘中16种多环芳烃(PAHs)的含量;利用ArcGIS的空间插值法揭示重金属及PAHs春夏季时空变化特征,利用相关分析、主成分分析、聚类分析、特征比值法和正定矩阵因子法阐明大同市区道路灰尘中重金属及PAHs的来源;利用富集因子
目的:明确口服富马酸替诺福韦二吡呋酯(TDF)治疗艾滋病对患者外周血心型肌酸激酶(CK-MB)活性检测的影响,探讨其可能机制。方法:1、采用回顾性研究的方法,选取2019年9月至2019年12月期间长沙市第一医院HIV门诊经治患者170例,根据治疗药物中是否含TDF分为TDF组和非TDF组,比较两组之间的CK-MB活性和CK-MB质量浓度,并分别对两组的CK-MB活性和CK-MB质量浓度进行相关性
不当用声、过度用声等多种因素使得现代嗓音疾病普发,这意味着声带无法规则振动,声音质量差,正常生活受到影响,因此临床上对病理嗓音的早期评估越发重视。目前的诊疗领域中,专家的听觉感知和侵入式喉镜是最主流的检查手段,前者依赖专家的主观经验,而后者会为患者带来痛苦。于是人们尝试借助计算机,以一种客观、无侵入的方式分析嗓音信号,实现病理嗓音的自动评估和分类,为嗓音质量的评价提供统一的量化标准。本文根据国内外
青峪猪是重要的地方品种资源,属于西南型湖川山地猪中盆周山地猪的一个类群。青峪猪脂肪沉积能力较强,腿臀肌肉发达,肌内脂肪丰富,风味香浓,肉质优良,但屠宰率和瘦肉率低。利用分子育种手段可以改良青峪猪的胴体性能,同时保留青峪猪肉质优良的优势,而挖掘青峪猪胴体和肉质性状关键的QTL与候选基因是进行分子育种的基本条件。全基因组关联研究(GWAS)是挖掘性状遗传资源最直接的方法。目前还没有专门针对青峪猪胴体和
盐商园林是以盐商为主的社会群体在盐业生产、运输、贸易、管理等生产经营和生活中出于多方需求所营建或使用的各类园林,因其特定的兴建背景、特殊的使用人群和丰厚的兴建资本而表现出独特的园林风貌,见证了相应时期盐业经济及城市发展。自贡与扬州盐商园林是我国主要盐业产区的地域性盐商园林代表,对其进行比较有利于系统完善两地盐业历史研究,有助于两地盐商园林地域性特征以及盐商园林总体特征的掌握,从而推动其保护与利用,
目前环境中存在的各种污染已经严重的影响到人们的日常生活,而传统的处理方法无法达到成本低、无二次污染的效果。根据已有的研究背景,等离子体技术在水处理、废气处理和杀菌消毒等方面应用效果好。其中,强电离放电,由于电离程度高且产生的等离子体活性强,有着很好的工业应用前景。针对强电离放电通常在高频交流供电下进行,而能耗仍然较高的难题,本文深入研究并提出脉冲强电离放电技术,兼具脉冲放电能耗低和强电离放电粒子活
餐饮业的蓬勃发展使餐厨垃圾的产生量不断增大,其不当处置对生态环境和人体健康留下众多隐患。好氧生物处理是餐厨垃圾一种有效的资源化处理技术,可将餐厨垃圾转化为安全、稳定的资源化产品。作为一种常见的内分泌干扰物,双酚A(BPA)进入到环境中会对人体健康造成危害,具有较大的环境风险。且BPA作为塑化剂可通过食品塑料包装缓释等途径直接进入到餐厨垃圾及后续好氧生物处理体系中,可能会对体系中的微生物代谢过程产生
人工智能已在社会各行业得到了广泛应用,如人脸识别、自动驾驶、智慧医疗等。机器学习是实现人工智能的重要途径,相关系统在安全攸关领域的应用不断增加,随之而来的安全问题也层出不穷。由于深度学习泛化能力不足,通过对原样本添加微小扰动即可导致深度学习模型输出错误分类结果,这种方法被称为对抗攻击,它给人工智能系统带来了很多威胁,尤其是图像识别系统。形式化验证基于严格的数学符号定义,能够验证系统模型是否满足期望
随着城市化进程加快、工业化程度提高,温室效应、城市热岛效应等环境问题接踵而至,水资源匮乏和水资源污染的问题尤为突出,雨水、污水等资源的再利用逐渐受到各国的关注,特别是一些发达国家,在上个世纪就已经着力研究雨水的收集与利用。相对来说,我国对雨水收集利用的研究起步较晚,城市雨水利用管理制度不健全,尚未建立完善的城市雨水利用法律体系,城市雨水利用发展缓慢,而公众对再利用项目的接受意愿是政府执行雨水回用等
2017年10月,习近平总书记在十九大报告中提出“加快生态文明体制改革”的要求。生态文明建设的最终实现需要提升全民的生态文明素养,而素养的获取需要通过生态文明教育,尤其是加强中小学生态文明教育,中小学是素质培养、习惯与价值观形成的关键时期。如今上海市中小学生生态文明素养还有较大提升潜力,学校对生态文明教育的重视程度还有待提升,社会对生态文明教育基地的教育功能认识还不足。本文探讨了加强中小学生生态文