论文部分内容阅读
21世纪是信息化高度发展的时代,各种数据不仅充斥着普通人的日常生活,更是被广泛应用于各行各业,为行业乃至社会的高效运行、发展提供源源不断的动力。数据的共享为数据提供了流动的渠道,提高了数据的利用率。在数据的共享过程中,直接发布这些数据存在泄露用户隐私的风险,所以如何高效安全的实现数据共享一直都是人们高度关注的话题,同时也是一项有难度的工作。在过去十年中,许多学者对数据共享和数据发布中的隐私保护进行了大量的研究,其中对于数据发布的处理方式是通过传统的匿名化隐私保护技术,然而当前的许多方案中仍然有泄露用户隐私的风险。针对这个问题,本文提出了基于差分隐私的满足数据发布应用要求的编码方案,通过相应的理论和实验证明本文所提出的方案进一步的提高了用户的隐私保护。本论文主体内容分为三个方面:1)比特向量编码方案介绍及改进,2)基于比特向量的记录链接分组问题,3)基于比特向量的直方图发布。其中,比特向量编码方案介绍及改进中首先对比特向量编码方案进行了详细的介绍,随之提出了一种改进后的比特向量编码方案(IBV),使其相对原编码方案(BV)具有更低的最大误差。同时基于IBV方案中随机数泄露导致的隐私问题,提出了基于差分隐私改进的比特向量编码方案(DPIBV)。通过距离估计的有效性实验证明了本文提出的IBV方案相比BV具有更低的最坏误差。在基于比特向量的记录链接分组问题中,研究了BV方案与IBV方案在记录链接问题上的表现。对于加速记录链接在实际运用中的效率问题,基于二叉树的思想提出了数据的分组方案,该方案能有效地在不降低记录链接效果的情况下提高记录链接的效率。通过记录链接实验,在相同的修正因子下,改进的比特向量技术拥有更高的准确率、召回率和fscore。通过分组实验,验证了在分组方案在效率和准确性方面的优势。最后,在基于比特向量的直方图发布中,本文将BV方案应用在直方图发布和均值发布的场景中,使其满足保护用户隐私的发布要求。同时基于差分隐私的编码方案提出了匿名空间中用于数据发布的算法。通过实验得到了以下结论:在BV和IBV编码方案的直方图发布中,不同数据量下IBV方案的编码误差更小;数据量越大时,基于差分隐私的比特向量编码方案直方图估计越准确;隐私参数epsilon越大,均值估计和直方图估计的估计误差越小。