论文部分内容阅读
在信息领域,每天都有大量的个人数据被收集和发布,这些与个体相关的数据被称为微数据,例如,人口普查数据、个人消费数据、医疗数据等。如果这些微数据信息被处理不当或者直接发布,便会不可避免地给个人带来相应的隐私问题,从而引发了对微数据发布中隐私保护问题的研究。此外,考虑到现实生活中个体对隐私保护程度的差异化需求,对个性化的隐私保护问题进行研究已成为该领域中的一大热点。本文立足于个性化的隐私保护需求,对微数据发布中的个性化隐私保护方法进行研究,主要工作有:(1)提出一种个性化(α,l)-多样性k-匿名隐私保护模型。针对传统的k-匿名模型和l-多样性匿名模型中存在的不足以及缺乏对个性化匿名的考虑,在k-匿名模型和l-多样性匿名模型的基础上,提出了一种个性化(α,l)-多样性k-匿名隐私模型。在该模型中,依据敏感程度的不同,对敏感属性的取值划分类别,设置相应的约束条件;通过为敏感属性构造泛化层次树的方法,允许特定的个体为自己的敏感属性值设置隐私保护级别,并制定个性化的隐私保护规则,为数据集提供个性化的隐私保护服务。为了更好地展示该模型,提出了基于聚类的个性化(α,l)-多样性k-匿名算法。实验结果表明,个性化(α,l)-多样性k-匿名模型在有效提供个性化服务的同时,具有更强的隐私保护能力。(2)提出了抵御相似性攻击的个性化p-敏感k-匿名模型。针对传统的p-敏感k-匿名模型及(α,k)-匿名模型忽视了敏感属性取值之间的语义关系,容易引发相似性攻击的问题,提出了一种面向敏感值的个性化p-敏感k-匿名模型。依据敏感属性取值的语义相关性将敏感属性的取值分为不同的语义组,为不同语义组中的敏感值设置不同的频率约束,要求数据集在满足p-敏感k-匿名模型的前提下,实现对敏感属性值的个性化约束。提出了实现个性化p-敏感k-匿名模型的算法,并开展了实验研究。结果表明,个性化p-敏感k-匿名模型能够在与传统的p-敏感k-匿名模型以及(α,k)-匿名模型信息损失相差不大的情况下,为数据集提供更强的隐私保护。