论文部分内容阅读
在信息化高速发展的今天,数据的高度收集和共享给人类带来了极大的便利。但是,随着数据仓库和数据挖掘技术的成熟,大量的隐私信息也被置于极为尴尬的境地。作为一种数据发布阶段的隐私保护技术,K-匿名因为其思想简单且易于实现,得到了广泛的关注和应用。但是,由于K-匿名本身存在的一些问题,严重地制约了它的继续发展。本文通过对K-匿名模型的综合分析后,指出K-匿名模型的不足之处,并提出了一种新的改进模型--(L,K)-匿名模型,该模型能够有效应对K-匿名模型的不足。本文还在(L,K)-匿名模型中引入了“伪记录”的思想,使得(L,K)-匿名模型也可以应用到数据的重发布中。本文的主要工作包括:
①针对现有K-匿名实现方法灵活性差,信息损失较大的问题,本文给出了一种基于聚类思想的简单有效的算法和符合聚类算法特点的信息损失度量方法。该算法能较好的在保护隐私和保证数据有效性之间取得平衡,而改进后的信息损失度量方法也可以更准确地对匿名策略进行评估。
②分析了K-匿名模型及其改进模型的优点和不足。针对K-匿名模型不能有效防止属性泄露且不能很好地实现隐私自治的问题,本文将K-匿名模型改进为(L,K)-匿名模型。通过引入敏感属性值敏感度S为不同敏感度的敏感属性值提供不同的保护强度,同时通过预设的等价组敏感度阈值L,对发布数据做进一步的约束,从而很好的实现了隐私自治并能有效的防止属性泄露,增强了数据发布的安全性。
③分析了数据重发布过程中存在的隐私泄露问题,然后将“伪记录”的思想引入到(L,K)-匿名模型中。在此基础上,本文提出了一种基于“M-恒定”的支持数据重发布的策略并给出了实现算法,使得(L,K)-匿名模型更符合实际的要求。
④利用加利福尼亚大学机器学习中心的Adult数据集对本文提出的模型和数据重发布策略进行了多方面的验证。实验不仅验证了(L,K)-匿名和“M-恒定”算法的正确性及有效性,而且表明符合这两种策略要求的数据表,不但可以有效防止隐私泄露,其数据精确度也可以达到较高水平。