论文部分内容阅读
随着信息技术的发展,数据爆发式地增长。人们通过收集、分析这些数据来获得对自己有用的信息,享受大数据带来的利益。但是,个人的隐私问题也面临着巨大的挑战。由于许多被收集的数据都包含着个人的敏感信息,若不对这些数据处理极大可能会造成个人隐私的泄露。因此,如何在保护数据的隐私前提下,保留数据的一定可用性,是当下数据发布领域的一个研究热点。匿名化技术对比其他隐私保护技术,它有着高保护低信息损失的特点,能在数据安全性和可用性之间达到一个平衡,因此受到了研究者的极大关注。本文基于匿名化技术对单敏感属性和多敏感属性数据的隐私保护展开了研究。本文的主要研究工作如下:(1)综述了匿名化技术的国内外研究现状,通过对比其他的隐私保护技术,说明了匿名化的优越性,同时也介绍了匿名化的相关技术,分析了数据发布中常见的攻击类型和匿名化模型。(2)针对单一敏感属性数据的相似攻击和个性化匿名问题,根据敏感值的敏感性,为不同的敏感值设置频率约束,限制它们在等价类中出现的概率,以此达到个性化匿名需求。同时,通过语义层次树考量了敏感值间的语义关系,并限制相同语义敏感值在等价类中出现的个数,以此来抵御敏感属性的相似攻击。分析了该方法的安全性,并与其他方法进行了实验对比。(3)针对多敏感属性数据的相似攻击和关联攻击问题,运用数据挖掘算法挖掘准标识符属性与敏感属性间的关联规则,确定它们的关联性。将无关联的准标识符属性单独划分,泛化和聚类时不需考虑它们,因此降低了数据的信息损失。同时将敏感属性划分到不同的属性组里,解决了敏感属性间关联攻击问题。并通过分析各个敏感属性值的语义,建立多维语义桶,限制各个属性相同语义敏感值在等价类中出现的个数,以此来抵御敏感属性的相似攻击。对该方法做了安全性分析,并与其他方法进行了实验对比。本文的创新点如下:(1)提出了一种可抵御相似攻击的个性化匿名方法。该方法不仅满足个性化匿名要求,而且解决了敏感属性相似攻击问题。在等价类划分过程中,运用了聚类思想,降低了数据在匿名过程中的信息损失。实验结果和安全性分析表明,该方法信息损失低,安全性高,能抵御更多的攻击类型。(2)提出了一种基于关联规则切片的多敏感属性隐私保护方法。该方法通过关联规则划分属性,不仅解决了敏感属性间的关联攻击问题,而且也降低了匿名数据的信息损失。同时,该方法也对多敏感属性的相似攻击进行了分析,能抵御更多的攻击类型。实验结果表明,该方法以更低的信息损失达到了隐私保护目的。