论文部分内容阅读
在开放的互联网时代,与个人信息相关的数据-微数据在网络上以指数级形式急剧增长,这些数据共享和发布可被用于进行海量数据分析,随着数据挖掘技术的日益发展及广泛应用,这些数据发布在科学研究、社会调查和舆情监控等方面,具有重大的利用价值。然而,微数据发布的同时也带来了隐私泄露的问题,在当今信息时代,个人隐私的概念发生了很大的变化,对隐私保护的需求也受到社会和公众的日益重视,在保证信息可用性的同时,如何保护用户的隐私成为了数据发布研究的主要问题。在现有的隐私保护数据发布研究中,大多数的研究主要针对单个敏感属性的数据集,而对于具有多维敏感属性的数据发布隐私保护的研究主要还是基于现有单个敏感属性数据发布方法的简单扩展,因而在实际应用中,会导致处理后数据的信息损失量过大,从而降低了数据的利用价值,尤其是现有的多维敏感属性数据发布模型对于敏感属性之间的多维关联性缺乏描述,攻击者可以利用这点进行攻击。针对多敏感属性的相关性导致的隐私泄露问题,本文围绕多维敏感关联性的隐私泄露原理、多维敏感关联的数据发布隐私模型以及隐私保护方法展开研究,在尽量降低信息损失量的同时,充分考虑到了攻击者利用敏感属性之间的关系进行攻击的情况,有针对性地提出了相应保护方案。本文的主要工作如下:①对现有的单维敏感属性数据发布模型K-匿名保护模型和L-多样性模型进行了深入的研究和分析,指出了这些技术在用于多维敏感属性数据发布的一些缺点以及可能存在的安全隐患。例如,把L-多样性模型直接应用于多维敏感属性,随着敏感属性数目的增多,等价组会变得越来越大,导致了越来越多的信息损失量,’从而提出本文的隐私保护处理的基本思想;②对多维敏感属性数据的隐私关联性分析,给出数据的多维敏感属性之间的关联度描述,提出了一种利用关联规则的隐私攻击模式,并提出一种新的具有多维隐私关联性的隐私保护模型;③根据隐私泄露模式,提出了两种新的面向多维敏感属性的数据发布方法,在这两种模型中增加了攻击者背景知识,为了能充分考虑到敏感属性之间的关联性,本文在多维敏感属性数据发布技术中引入关联规则,可以有效避免攻击者利用敏感属性之间的关联规则进行攻击,并且通过对敏感属性进行泛化的方式降低了发布数据表的信息损失量。这两种保护模型保护强度逐步增强,隐私保护的侧重点也各不相同,为不同情况下的隐私保护提供了更多的选择;④为这两个模型提出了各自的实现算法,并利用真实的美国人口普查数据集Adult对该模型进行验证。通过实验结果得出,本文提出的模型不但能解决现有模型无法避免攻击者利用关联规则进行攻击的问题,还能保持着较高的数据发布质量。