论文部分内容阅读
随着互联网和信息技术的飞速发展,日益增长的隐私问题已经成为信息共享的主要障碍。如何有效保护发布数据中含有的个人隐私信息已备受人们关注。基于k-匿名模型和l-多样性模型的隐私保护数据发布是隐私保护领域的研究热点。近年来,人们提出了许多有价值的基于k-匿名和l-多样性模型的隐私保护数据发布技术。然而,目前数据发布中的隐私保护算法大多是贪心的近似算法,没有高效率的最优算法;大多数的匿名算法只考虑数据的一次发布,而没有考虑数据集增量发布中的隐私保护问题;关于事务型数据和移动轨迹数据发布中的匿名隐私保护的研究工作还处于起步阶段。鉴于此,本文主要针对关系型数据发布、数据增量发布、事务型数据发布和移动轨迹数据发布中的若干隐私保护问题开展研究工作。
论文工作的主要成果表现在以下几个方面:
(1)从子空间划分的角度来研究基于空间严格多维划分的最优k-匿名问题,发现所有可能的子空间数量远小于所有可能的划分数量,从而设计出基于子空间严格划分的隐私保护最优k-匿名动态规划算法。
(2)提出一种适用于多种隐私保护机制的最优子空间严格划分动态规划算法框架,并通过以l-多样性为隐私保护机制的实验分析验证该算法框架的有效性。
(3)提出一种基于混合划分的隐私保护技术,用于克服严格划分技术所发布数据的信息损失较大而非严格划分技术所发布数据可能存在查询混淆的不足。
(4)提出了防止数据增量发布过程中发生隐私泄露的单调概化原则,并利用该原则,设计了一个基于划分的增量数据重发布k-匿名算法,该算法可安全且高效地实现连续增长数据集重发布的隐私保护,同时保证发布数据具有较高的数据质量。
(5)将剖分技术用于高维的事务型数据发布中的隐私保护,在不区分准标识符和敏感属性的前提下,通过计算事务型数据中属性间的均方列联系数将高维属性集剖分成互不相交的若干个属性子集,进而设计出具有高数据可用性的事务型数据发布隐私保护剖分算法。
(6)针对传统基于聚类的轨迹数据发布算法只关注单条轨迹的隐私而忽视对轨迹聚类组特征保护的不足,发现轨迹数据聚类发布后可能存在二次聚类攻击,并提出抵御二次聚类攻击的(k,δ,△)-模型和基于该模型的聚类杂交隐私保护轨迹数据发布算法。