论文部分内容阅读
随着数据库技术和信息网络的快速发展,越来越多的数据被收集,发布和使用。一些基于互联网的企业也储存了很多相关的敏感隐私信息,这些信息一旦被泄漏,会给企业的发展带来严重的后果。在各个行业众多的企业中也储存了很多关于客户的隐私信息,如果这些信息泄漏也影响着客户的流失。此外各种社会机构、政府等也收集了很多关于个人的隐私信息,个人的隐私信息如果泄露也会造成不良的社会影响。针对以上情形,个人、企业和政府也越来越重视隐私安全,隐私泄漏问题已然成为网络社会中一个严峻的问题。 在数据的发布过程中,如何保护隐私敏感信息不被泄漏已经成为信息安全研究领域的一个热点问题。基于聚类的匿名化隐私保护技术是近些年研究隐私保护的热点技术,凭借着其独特的优势和深远的研究价值,同时有许多需要去改进的方面,是一个值得继续深入研究的课题。针对数据发布过程中,既要使得发布数据的隐私信息得到更好的安全保护,又要使处理之后的数据还能在科研界有一定的可用性,本文所做的主要工作包括: 1)概括和分析了该领域的国内外研究现状,介绍了匿名化隐私保护技术的相关知识,分析和归纳了各种隐私保护技术、匿名化技术、匿名化原则和匿名化攻击。 2)针对链接攻击导致的隐私泄露问题,以及为了尽可能减少匿名保护时产生的信息损失,提高发布数据集的可用性,基于聚类的的思想,提出一种面向个体的基于变长聚类的个性化匿名保护方法。该方法充分考虑记录权重值对聚类簇中心结果的影响,以提高数据的可用性,并对敏感属性值进行分级处理,将敏感属性值分成三个等级类,响应不同个体的保护需求。分析了该方法的正确性和安全性并做了实验测试对比。 3)针对l-多样性匿名数据集易遭受相似性攻击和偏斜性攻击的问题,同时为了满足敏感属性个性化保护需求,提出一种个性化的(λα,l)-分级匿名模型。该模型在满足每个等价聚簇中至少有l个敏感属性值的基础上,对敏感属性值进行分级处理,并通过限制等价类簇中出现的最高频率来灵活可变的控制隐私泄漏的风险。在该模型基础上给出一种基于聚类的个性化分级匿名方法,对方法做了实验测试与分析,该方法以更少的信息损失提升匿名数据集的安全性。 本文的创新点包括: 1)提出一种基于变长聚类的个性化匿名保护方法,该方法能满足敏感属性个性化的保护需求,数据匿名过程中有更少的的信息损失,能保持更好的可用性,同时提高了匿名效率。 2)提出一种改进的个性化匿名模型,该模型以更小的信息损失达到隐私保护的目的,同时满足敏感属性值个性化分级保护需求。 3)提出一种改进的基于l-多样性的聚类的分级匿名保护方法,该方法在l-多样性的基础上实现更高的安全性,降低了信息损失。