【摘 要】
:
互联网技术的发展,使得公共和私人组织可以收集到包含个人详细信息的大量微观数据,将这些数据公开发布给社会和研究机构的需求正在逐步增长。同时,这些数据的持有者也面临着
论文部分内容阅读
互联网技术的发展,使得公共和私人组织可以收集到包含个人详细信息的大量微观数据,将这些数据公开发布给社会和研究机构的需求正在逐步增长。同时,这些数据的持有者也面临着公开数据以证明其透明度的压力,但是,这些微观数据包含着许多个人的敏感信息,如果不经处理直接发布,数据中个人的隐私信息将面临巨大的泄露风险,因此,在数据发布之前,需要对原始数据进行处理以防止隐私信息的泄露。差分隐私模型是当今最广为使用的隐私保护数据发布技术,并且因其强大的隐私保护能力,被应用到隐私保护的众多领域。差分隐私机制主要通过对原始数据注入噪声来实现隐私保护的目的,但是在面对高维数据时,现存隐私保护算法会注入过多的噪声,从而导致数据的可用性较差,因此,如何在满足差分隐私的同时,保证数据的可用性是一项艰巨的任务。本文重点研究了差分隐私模型下高维数据的合成数据发布方法,针对现存算法不能有效处理高维数据的发布问题提出了相应的改进方法,并保证在满足差分隐私的前提下,提高合成数据的可用性。本文主要工作如下:(1)研究了贝叶斯网络结构学习方法,并针对现存算法的不足,提出了一种基于依赖关系和评分函数的贝叶斯网络结构混合学习方案,使得构造的贝叶斯网络中属性的低维边缘分布能够充分近似高维数据中属性的全分布。(2)针对高维数据的取样过程,提出了一种基于贝叶斯网络的差分隐私取样算法,采用网络中属性的低维边缘分布近似高维数据的全分布,在取样时对网络中属性的边缘分布注入Laplace噪声,然后从中取样生成合成数据集,使得取样过程在低维空间进行,降低了计算复杂度。(3)通过实验对合成数据集的可用性进行了验证,对比相关算法,本文中的方法,在满足差分隐私约束的同时,生成的合成数据集与原始数据集具有更高的相似度。
其他文献
近年来,随着中国政策的逐渐放开和民众消费水平的日益提高,汽车金融业蓬勃发展。然而相对于欧美等发达国家,中国的汽车金融业无论是从规模上还是在经验上都与之存在着较大的
近年来,在政策引导下煤化工产业迅猛发展,煤化工设备也迅速增加。由于煤化工设备大量应用不锈钢材料,而煤化工环境中又含有大量氯离子,这就导致了煤化工设备使用过程中的氯离
黑格尔把无限区分为真的无限性和坏的无限性。坏的无限性是单纯的否定,而真的无限性是否定之否定。他认为真的无限是理性思维的产物,而坏的无限是知性思维的产物。黑格尔的无限
目前,越来越多的中小企业认识到社会网络的重要性,并积极建设自己的社会网络。但多数中小企业在识别、构建合作网络和协同成长方面存在很多问题。利用北京地区高端产业园区20
目的:胃癌伴幽门梗阻患者营养不良严重,预后差,探讨胃癌伴幽门梗阻患者在肠内营养支持下同时予以新辅助化疗后的疗效。方法:纳入2016年1月至2018年12月份中国医科大学肿瘤医
结构应该满足最基本的要求,比如安全性、持久性以及对一个长期工程的可靠性。在结构的长时间服役期间内,可能会在其性能方面慢慢减弱或者慢慢遭受一些损伤或者破坏。因此,对
结合某隧道衬砌出现裂缝的情况,根据施工单位的现场量测资料,对隧道衬砌的开裂原因进行了分析。通过分析裂缝在隧道纵向的分布及裂缝的发展,认为该隧道非断层带内的衬砌开裂
随着社会经济的不断发展和人民生活水平的不断提高,人们不再满足于拥有最基本的衣食住行,而是对此拥有更高的要求。就"衣"这个角度来讲,人们在保暖实用的基础上现在更加要求
目的:从时间和空间维度,应用脑磁图(MEG)研究探讨慢性恢复期Broca失语症患者图片命名语言加工的半球偏侧特征。方法:选取未经言语训练的慢性恢复期Broca失语症患者及与其年龄
目的探讨左甲状腺素钠治疗甲状腺功能减退症对实验室指标及症状的影响。方法选择120例甲状腺功能减退症患者为研究对象,随机分为观察组与对照组,各60例,观察组患者口服左甲状腺