论文部分内容阅读
随着网络技术的发展和智能设备的普及,人们产生和收集数据的能力不断增强。现实生活中,大量的相关数据往往分布在多个不同的节点(即数据拥有者)。将多方数据作为整体统一发布,有助于数据分析者更加深入地挖掘数据中蕴含的价值,从而提供更好的数据服务。然而,数据中往往包含大量的用户个人敏感信息,未对数据进行有效的隐私处理而直接发布,将不可避免地造成严重的隐私泄露。因此,本文研究满足差分隐私的多方数据发布问题。相比于满足差分隐私的单方数据发布,满足差分隐私的多方数据发布中个人隐私保护要求更加严格。另外,满足差分隐私的多方数据发布要考虑如何提高整体发布数据的效用和降低数据发布过程中数据拥有者之间的通信开销。为解决上述问题,本文针对三种典型的多方数据发布场景(水平分割关系数据集、垂直分割关系数据集和多方序列数据集),对满足差分隐私的多方数据发布问题进行了深入的研究,并取得了以下创新性成果:(1)针对满足差分隐私的水平分割关系数据集发布问题,基于贝叶斯网络模型,提出了一种满足差分隐私的水平分割关系数据集发布方法DP-SUBN。在该方法中,数据拥有者和第三方共同在差分隐私条件下以串行的方式构建贝叶斯网络。然后,第三方利用该贝叶斯网络生成一组新的发布数据。利用串行方式构建贝叶斯网络,可使得数据拥有者将先前数据拥有者的统计信息作为先验知识指导自己的学习过程,从而提高学习结果的准确度,并降低学习算法的复杂度和敏感度。为了保证串行学习的效果,提出了属性对关联强度感知的边界构造方法,在保证传递足够多的有效信息的同时,尽可能地降低数据拥有者之间的通信开销。此外,为减少属性对关联强度度量过程中噪音的摄入量,提出了无重叠属性划分方法,并提出一种动态规划方法确定无重叠属性划分方法中最优的参数。理论证明,DP-SUBN满足差分隐私保护要求。实验结果表明,该方法生成的整体数据具有较高的数据效用,且生成过程造成较低的通信开销。(2)针对满足差分隐私的垂直分割关系数据集发布问题,基于隐树模型,提出了一种满足差分隐私的垂直分割关系数据集发布方法DPLT。在该方法中,数据拥有者和第三方首先在差分隐私条件下共同构建一棵隐树。然后,第三方利用该隐树生成一组新的数据集。采用隐树模型,可以利用少量的隐属性度量大量的显属性之间的依赖关系,从而显著降低度量函数的敏感度和度量过程中数据拥有者之间的通信开销。为了提高生成的隐属性的准确度,提出两阶段的隐属性生成方法,降低了生成的隐属性中注入的噪音量。为了减少隐属性对关联强度度量过程中摄入的噪音量和造成的通信开销,提出了基于树状索引的关联强度度量方法。为了保证度量过程满足差分隐私保护要求,提出分布式拉普拉斯扰动协议。理论证明,DPLT满足差分隐私保护要求。实验结果表明,该方法生成的整合数据具有较高的数据效用,且生成过程造成较低的通信开销。(3)针对满足差分隐私的多方序列数据集发布问题,基于预测后缀树模型,提出了一种满足差分隐私的多方序列数据方法DPST。在该方法中,数据拥有者和第三方首先在差分隐私条件下,从根节点出发,依次对节点判断并将评分大于一定阈值的节点进行拆分,最终构建一棵预测后缀树。然后,第三方利用构建的预测后缀树,生成一组新的序列数据。为满足差分隐私保护要求,在对节点进行判断时,不能泄露节点的评分信息。为解决该问题,基于同态加密技术和姚氏比较协议,提出一种基本的节点拆分判别协议。为了进一步降低协议通信开销,提出了一种改进的节点拆分判别协议。理论证明,DPST满足差分隐私保护要求。实验结果表明,该方法生成的整体数据具有较高的数据效用,而且生成过程造成较低的通信开销。