论文部分内容阅读
随着数据库技术与互联网的飞速发展,越来越多的数据被人们收集、发布和使用,这些数据中可能包含了个体的隐私信息,因此,如何在数据的发布和使用中保护个体隐私成为学术界和工业界研究的热点问题。匿名化是解决数据发布中隐私泄露问题的主要技术之一,其基本思想是通过对准标识符属性执行泛化/隐匿操作发布精度较低但语义一致的数据,以实现隐私保护。自从Sweeney等提出k-匿名模型以来,由于匿名化技术能够简单有效地对发布的数据实现隐私保护,近年来得到研究者的广泛关注。由于最优数据匿名化问题是NP难问题,围绕如何提高发布数据的隐私保护程度、降低匿名化隐私保护的信息损失,已有多种启发式的k-匿名方法被提了出来。然而,这些数据匿名化方法主要是对准标识符执行泛化/隐匿操作,并未对敏感属性做任何约束,容易受到同质性攻击和背景知识攻击。为此,Machanavajjhala等在k-匿名的基础上,提出了l-多样性匿名模型,考虑了等价类中敏感属性值的多样性问题,要求同一个等价类中至少有l个“表现较好”的敏感属性值,进一步提高了匿名数据的隐私保护程度。研究表明:目前多数匿名化方法是基于泛化/隐匿技术的,由于其严重依赖于预先定义的泛化层或属性域上的序关系,使得匿名结果产生很高的信息损失,从而降低了发布数据的可用性;而且,现有匿名化技术重在对隐私信息的保护,却忽视了匿名数据的实际效用,导致匿名数据的可用性不高。本文的研究内容是设计基于聚类的匿名化隐私保护算法,主要涉及到匿名数据的隐私性、信息损失和可用性等方面的研究。希望在保护个体隐私的同时,最大限度地减少信息损失,提高匿名数据的实际效用,达到个体隐私保护与数据效用之间的合理平衡。本文的主要研究工作和创新点如下:(1)针对现有k-匿名算法对离群点敏感、信息损失较高等问题,提出了一种基于聚类的k-匿名改进算法。理论分析及实验结果表明,该算法通过“一次”聚类过程产生等价类,能够有效解决离群点敏感的问题,减少k-匿名数据的信息损失,提高发布数据的质量。(2)针对泛化/隐匿技术对l-多样性匿名数据质量的影响,提出了一种基于聚类的l-多样性匿名算法,该算法可减少信息损失,但存在偏斜性攻击问题,为此,又提出一种改进的基于敏感值约束的l-多样性匿名算法。理论分析及实验结果表明,改进后的算法不仅提高了敏感数据的隐私保护程度,而且能够有效减少l-多样性匿名数据的信息损失,提高发布数据的质量。(3)针对动态更新数据集匿名数据发布时存在的推理攻击问题,提出一种基于增量聚类的l-多样性匿名算法。理论分析及实验结果表明,该算法通过保持等价类签名不变以实现“完全”动态更新数据集的安全数据发布,具有较高的执行效率。(4)针对发布的匿名数据实际效用低下问题,通过构建准标识符属性对敏感属性的效用影响矩阵,提出了一种面向数据分类应用的l-多样性匿名算法。理论分析及实验结果表明,该算法在保护个体隐私的同时,能够较好地满足数据分类的应用需求。