论文部分内容阅读
现有的关于数据发布的工作集中于如何在数据发布时隐藏个体信息,已提出的方法大部分都是“正发布”方法,即直接对原始数据进行处理后发布,但其实这些方法发布的依然是“正”的数据。因此,这会使得攻击者有可能通过特定的攻击手段,如同质化攻击等,从发布表中获取到用户隐私,从而造成隐私泄露,给用户利益带来危害。由于负表示是将原始数据用其补集来表示,具有很强的隐私保护能力,因此本文将负表示思想引入到数据发布领域,提出了新的数据发布方法,即将每条记录的敏感属性值使用其负表示的值进行替换,发布带有“负”的敏感属性值的数据,从而提高现有方法的隐私保护度。本文的工作主要集中在以下几个方面:(1)由于传统数据发布的k-匿名模型发布的是带“正”的敏感信息的发布(未处理原始数据的敏感信息),且k-匿名模型发布数据时未考虑到各个等价类中“正”敏感信息的分布,这些缺陷使得k-匿名容易受到同质化攻击等方式的攻击,从而造成隐私泄露。因此,本文将负表示与k-匿名模型结合,提出了(k, m)-anonNPD算法。该算法对k-匿名的发布数据进行了负表示转换,从而最终的发布数据在非敏感属性上不可区分,同时对应的敏感属性值都是“负”的敏感属性值,以此达到隐私保护的目的。本文通过理论分析和相关的实验,将本文提出的(k, m)-anonNPD算法与k-匿名进行了比较,证明了(k, m)-anonNPD算法隐私保护能力比k-匿名更强,同时该算法也具有实用性。(2)l-多样性模型是基于k-匿名模型提出的,该模型对数据发布时等价类中的敏感信息的分布做了处理,使得发布数据的每个等价类中至少包含l种不同敏感信息,克服了k-匿名发布时会出现的同等价类中的敏感信息的分布可能会比较集中的缺陷,但是l-多样性发布的数据依然包含“正”的敏感属性值。本文将负表示与l-多样性模型结合,提出了(l, m)-divNPD算法。该算法在l-多样性进程中将原始数据进行了负表示转换,从而使得发布数据中的敏感信息都是“负”的敏感信息,且这些“负”的敏感信息具有更好的多样性,提高了隐私保护能力。本文通过理论分析和相关实验,将本文提出的(l, m)-divNPD算法与l-多样性进行了比较,证明了(l, m)-divNPD算法相比l-多样性模型具有更强的隐私保护能力,同时也具有实用性。(3)本文提出了两种算法(k, m)-anonNPD算法和(l, m)-divNPD算法,这两种算法都将对应的传统数据发布模型的发布效果做了一定的提升。但是,这两种算法具有各自的特点,因此,本文针对提出的(k, m)-anonNPD算法和(l, m)-divNPB算法,通过相关实验对这两种算法进行了比较,分析了两种方法的各自的特点。本文将负表示思想应用到数据发布领域,并将负表示与数据发布领域的经典模型k-匿名模型和l-多样性模型结合,分别提出了新的基于k-匿名模型的(k, m)-anonNPD算法和新的基于l-多样性模型的(l, m)-divNPD算法,并通过理论分析和相关实验,验证了两种算法的隐私保护能力和实用性。