论文部分内容阅读
随着数据分析共享技术的日益成熟,越来越多的企业或者组织机构为获取有价值的信息,将收集到的用户数据的统计信息发布出来,供第三方机构研究。虽然发布的是统计信息,但仍然存在用户隐私泄露的风险。加强发布数据的隐私保护,是防止用户隐私泄露的重要手段。
差分隐私是一种严格的隐私保护模型,数据发布隐私保护是其主要研究内容之一。直方图发布是差分隐私中一种较为成熟的数据发布方法,但现有直方图发布算法存在发布数据可用性低的问题。针对上述问题,本文基于差分隐私保护模型,对静态数据和流式数据直方图发布算法进行深入分析和研究,主要研究内容如下:
(1)针对静态数据直方图发布算法近似误差和 Laplace 误差的均衡问题,给出两种直方图发布算法:基于抽样排序和层次划分的直方图发布算法(SSHP)、基于抽样排序和贪心划分的直方图发布算法(SSGC)。SSHP算法首先利用轮盘赌抽样排序算法对原始直方图进行抽样排序;然后利用层次划分算法对排序后的直方图进行自适应划分,通过缩减划分方案的选择范围,增大了小误差划分方案的选择概率。SSGC算法首先利用轮盘赌抽样排序算法对原始直方图进行抽样排序;然后利用贪心划分算法对排序后直方图进行自适应划分,通过提升划分过程中的误差下界,使划分更加精确。仿真测试结果表明,SSHP和SSGC算法在满足差分隐私的前提下均有效降低了算法误差。
(2)针对流式数据直方图发布算法的隐私保护和数据可用性问题,给出一种流式数据直方图发布算法(SDHP)。该算法首先利用滑动窗口模型切割出当前时刻的窗口数据;然后利用曼哈顿距离来衡量两个时刻数据的相似性,进而判定是否分配隐私预算;最后对分配隐私预算的数据,利用SSGC算法对直方图进行动态划分,得到发布直方图。仿真测试结果表明,该算法在满足 w-事件隐私的前提下,有效提升了发布数据的可用性。
差分隐私是一种严格的隐私保护模型,数据发布隐私保护是其主要研究内容之一。直方图发布是差分隐私中一种较为成熟的数据发布方法,但现有直方图发布算法存在发布数据可用性低的问题。针对上述问题,本文基于差分隐私保护模型,对静态数据和流式数据直方图发布算法进行深入分析和研究,主要研究内容如下:
(1)针对静态数据直方图发布算法近似误差和 Laplace 误差的均衡问题,给出两种直方图发布算法:基于抽样排序和层次划分的直方图发布算法(SSHP)、基于抽样排序和贪心划分的直方图发布算法(SSGC)。SSHP算法首先利用轮盘赌抽样排序算法对原始直方图进行抽样排序;然后利用层次划分算法对排序后的直方图进行自适应划分,通过缩减划分方案的选择范围,增大了小误差划分方案的选择概率。SSGC算法首先利用轮盘赌抽样排序算法对原始直方图进行抽样排序;然后利用贪心划分算法对排序后直方图进行自适应划分,通过提升划分过程中的误差下界,使划分更加精确。仿真测试结果表明,SSHP和SSGC算法在满足差分隐私的前提下均有效降低了算法误差。
(2)针对流式数据直方图发布算法的隐私保护和数据可用性问题,给出一种流式数据直方图发布算法(SDHP)。该算法首先利用滑动窗口模型切割出当前时刻的窗口数据;然后利用曼哈顿距离来衡量两个时刻数据的相似性,进而判定是否分配隐私预算;最后对分配隐私预算的数据,利用SSGC算法对直方图进行动态划分,得到发布直方图。仿真测试结果表明,该算法在满足 w-事件隐私的前提下,有效提升了发布数据的可用性。