论文部分内容阅读
随着信息技术的高速发展,各种组织机构间的数据共享越来越普遍。伴随数据挖掘工具/系统的发展,现在不得不面临这样一种尴尬的局面:数据挖掘系统一方面要能够满足用户从数据库中发现有价值信息的需求,另一方面又要限制其挖掘个人隐私的能力。由于人们对隐私保护的迫切需求,推动了隐私保护技术的发展。匿名化方法是数据发布中常用的隐私保护手段,自K-匿名提出以来,就以其简单易懂、易于实现而倍受青睐,并在其基础上针对不同问题提出了许多匿名方法,如l-多样性,m-不变性等。虽然符合K-匿名的方法有许多,但是这些方法对于背景知识的攻击,尤其是在连续性的数据发布中不能起到很好的保护作用。本文主要研究在连续性数据发布中防止隐私泄露的一种K-匿名方法。首先对隐私保护研究的现状进行概述,然后对隐私保护相关概念以及K-匿名方法进行简要介绍。接下来本文详细说明了目前常用的一些隐私保护技术在连续性数据发布环境中是可能导致隐私泄露的。造成这种结果的根本原因在于连续发布的数据之间是有联系的,攻击者能够挖掘出这些联系进而逐步修正其已有的背景知识,进行合理推理之后能够以很大概率揭露用户的隐私信息,常规的隐私保护方法很少考虑到连续发布的数据之间的联系。本文算法基于JS-散度来划分等价类同时要求等价类满足K-匿名规则,同一等价类中的元组间的JS-散度值小于给定阈值,以此来限制攻击者从连续发布的数据中挖掘有用信息的能力。为了保证发布数据的质量,算法借鉴了G.Ghinita等人提出的泛化方法,该方法利用希尔伯特填充曲线将多维准标识符映射到一维空间再对其求最优泛化,对其改进后使匿名数据同时满足K-匿名和JS-散度要求。最后,本文通过仿真实验分析,验证了该算法能够同时在保护隐私信息和保证数据的有效性两方面达到可接受的水平。