论文部分内容阅读
随着计算机、数据库和网络信息技术的蓬勃发展及广泛应用,越来越多的数据在网络中被公开发布。数据挖掘等诸多技术的进步帮助了人们有效地利用发布数据,从海量信息中抽取出潜在的、有价值的知识,同时也推动了数据发布技术的发展。然而发布数据中可能包含的大量个人隐私和敏感信息也面临隐私泄露的威胁,因此数据发布中的隐私保护研究具有重要的作用和意义。集值属性数据是一种主要的发布数据类型;真实的数据发布应用中,又包含对数据集的增加、删除和修改等动态操作,需要进行更新和重新发布。本文以动态集值属性数据的重发布为研究对象,针对一般形式的动态集值属性数据重发布的需求,对如何实施有效的隐私保护,高效地完成匿名发布处理,并更好保留发布结果的信息完整性和实用性问题进行了相关研究。针对动态集值属性数据重发布中的隐私保护问题,本文提出并设计了一个动态集值属性数据重发布的隐私保护模型。该模型将数据的收集更新、隐私保护方案、匿名处理和数据发布部分相结合,构成了一个有机整体,达到了对动态变化的集值属性数据集的重发布实施隐私保护的目的。针对现有集值属性数据匿名隐私保护方法存在的问题,本文提出并设计了一个改进的集值属性数据k-anonymity匿名算法。通过结合局部重编码泛化和隐匿技术,扩展了基于自顶向下划分的泛化算法,使用多轮次、两阶段的方式对集值属性数据进行泛化和隐匿处理,有效降低了匿名结果的信息损失。本文补充并提出了完整的匿名结果质量度量标准以验证匿名结果的质量得到提升,为重发布方法的研究提供了基础。针对动态集值属性数据的重发布问题,本文基于扩展的适用于集值属性数据的敏感属性更新图原理,提出了k-preserving隐私保护原则。延续使用事务型k-anonymity原则对单次匿名发布实施保护,并通过维持敏感元素在更新重发布中的多样性和连续性阻止其被攻击揭露。结合改进的k-anonymity匿名算法,提出了相应的完整动态集值属性数据重发布算法,该算法也是本文提出模型的核心内容。在以上研究的基础上,本文对所提出的模型进行了实现,并使用真实数据集分别对模型中的核心算法和重发布方法实施进行了实验。结果表明了该模型达到了隐私保护和提高发布数据质量的目标,具有很好的实用性和有效性。