论文部分内容阅读
随着信息技术的飞速发展,人们越来越关注数据发布过程中的隐私保护问题。目前存在的大部分数据发布算法,在保护用户身份隐私的情况下,往往直接暴露原始敏感属性值信息。这样,如果攻击者使用一些攻击手段,可从发布数据中获取到用户的敏感属性值信息而造成一定程度的隐私泄露。信息负表示借鉴生物免疫系统的自我-非自我学说,是一种新型的隐私保护方法。目前已有相关研究将信息负表示应用于数据发布领域,形成了新的数据发布方法,我们称之为数据负发布。本文针对已有数据负发布方法中存在的缺陷,提出了两种数据负发布方法SvdNPD和(k,p,l)-NPD,并开展了相关的应用研究。本文工作主要包括以下3个方面。(1)提出了基于敏感属性值分布的数据负发布方法SvdNPD。已存在的数据负发布方法(k,m)-anonNPD和(l, m)-divNPD对敏感属性进行聚合查询时,通过提高m来降低误差,这使得存储空间增大。本文将用户敏感属性值分布纳入考虑范围内,在l-多样性模型的基础上,对敏感属性进行负表示时,将负表示选择概率修改为根据用户敏感属性值分布计算出的选择概率,从而获得最终发布表。SvdNPD可直接对发布出的敏感属性信息进行聚合查询,相较于(l, 1)-divNPD具有更好的聚合查询效果。(2)提出了基于准标识符信息负表示的数据发布方法(k, p,l)-NPD。(k, m)-anonNPD和(l, m)-divNPD数据负发布算法在实现k-匿名和l-多样性模型时采用的是抽象匿名技术,需要对每个准标识符属性建立抽象树,将属性值按照抽象树抽象成区间值以达到匿名效果,因而不便从发布数据中挖掘出关联规则。(k,p,l)-NPD无需建立抽象树对属性值进行抽象,而是选取合适的准标识符属性进行负表示来隐藏用户身份信息,对敏感属性进行分组并在组内进行负表示来实现l-多样性模型。因此,(k, p, l)-NPD数据负发布方法在防止攻击者获取用户身份信息的同时,可有效防止敏感信息泄露,且产生的发布数据便于进行关联规则挖掘。(3)提出了基于(k,p,l)-NPD发布表的关联规则挖掘方法NPD-AR。本文针对(k,p,l)-NPD数据负发布方法设计出了关联规则挖掘方法,并通过实验比较从发布表和从原始处理表中挖掘出的关联规则。实验结果表明,NPD-AR可挖掘出效果很好的关联规则,且适当的提高支持度阈值和置信度阈值可降低关联规则的误报率和漏报率。本文工作不仅在面向隐私保护的数据发布方法研究方面具有参考价值,而且对基于隐私保护的数据发布表进行数据挖掘方面具有参考价值。