论文部分内容阅读
受利益的驱使或某些要求数据公开的条例的约束,不同团体之间需进行数据的发布或交换。然而,详细的与个人相关的数据往往包含个体的敏感信息,直接发布这些原始格式的数据会泄露个人隐私。因此,有必要研究隐私保护数据发布(PPDP Privacy Preserving Data Publishing)技术。本文研究了基于数据挖掘的PPDP技术,给出一个基于数据挖掘的PPDP模型。在该模型中我们通过属性分析和匿名化操作获得数据发布方案,并使用数据挖掘技术指导数据发布方案的优选。首先根据数据发布需求,使用关联和相关技术分析数据集中各个属性并将这些属性划分至互不相交的属性集。然后使用数据分类技术评估隐私泄露风险和数据可用性以指导匿名化过程。实验结果表明,该模型能较好的满足给定的数据发布需求,并具有以下优点:在极大的降低了隐私泄露风险的同时维持较高的数据可用性;所发布的数据具有较小的扰动;对于所发布数据的可用性和隐私泄露风险给出了定量的评估。