论文部分内容阅读
信息爆炸的今天,各行各业每天都产生大量的数据,这些不同的数据构成了一个“数据集市”。互联网高速发展与普及,数据大规格集中管理与推广,激发了人们对数据公开和数据共享的需求。然而,大量不同的数据不断地被发布出来,这些数据或多或少会泄露用户的隐私,同时这种泄露又是不可避免。因此,如何解决数据发布的质量和隐私保护这对矛盾,成为科研工作者们一个迫切需要研究的课题。 传统的基于泛化分层的隐私保护方法,都是以数据块或者等价类的方式来保护隐私。这类保护方法通过数据块的方式,增加攻击者推断的成本,减少攻击者的后验知识。它们一般只考虑局部数据块,所以往往能够简单、直接地保护到用户的隐私。这种局部保护方法的弊端是,没有考虑到发布数据的全局损失。这种损失主要是体现在两个方面,首先是没有考虑全局的损失,不能使得全局损失最少;其次是没有考虑数据整体模型的变化。而本文正是针对这两个问题,提出了两种全局保护的方法,一是提出了一种改进的t-逼近算法;二是提出了基于聚类模型的隐私保护方法。 首先,针对 t-逼近算法未能考虑抑制过程对发布数据全局损失的问题,本文提出了一种改进的t-逼近算法,在原始的t-逼近算法的基础上增加约束d,为了保证 d最小,在抑制的过程中每次选择损失最少的记录,从而减少全局隐私的损失; 其次,针对泛化分层算法未能考虑敏感属性对发布数据整体模型的聚类影响问题,提出了基于聚类模型的隐私保护方法,该模型是一个基于维度的改进的高斯混合模型。改进的有限混合模型将混合成分进一步拆解成三个混合成分,从而增强模型的区分能力;通过引入边际似然函数,算法具有模型选择能力;基于维度的聚类模型,具有很强的特征选择能力;通过限制敏感属性在聚类过程的权重,使得聚类模型和原始数据模型保持一定距离,从而可以对发布数据起到全局保护。 实验结果表明:改进的t-逼近算法中新增的约束 d具有t类似的约束力;基于维度的改进的高斯混合模型不仅考虑了隐私保护,同时具有很强的特征选择能力。