论文部分内容阅读
随着各行各业对数据共享的迫切需求,数据发布隐私保护技术取得了长足的发展。数据挖掘分类分析工作需要大量的数据支持,如何对发布的数据成功进行分类分析的同时保护隐私数据不被泄露成为了一个重要的问题。近年来,数据发布隐私保护技术的研究成为数据库领域的研究热点,k匿名模型是实现数据发布隐私保护的重要思想,然而现有的k匿名实现技术没有考虑匿名数据的具体应用情况,针对具体应用改进数据匿名化过程,从而得到面向该应用高质量的匿名数据,是一项非常有意义的工作。通过对数据挖掘分类技术和隐私模型相结合的研究,本文提出了面向数据挖掘分类分析技术来进行匿名化数据,不再要求匿名化过程造成数据信息损失量最小,而是要求匿名化过程对数据在挖掘分类中的影响尽可能的小,通过考虑各个属性在分类中的作用,提出属性的权重思想,即不同的属性在数据挖掘分类中表现的重要度可能不同,根据不同的属性在分类过程中的表现,定义不同的属性权重,从而在匿名化过程中进行不同程度的泛化。最近,面向分类分析技术的k匿名研究得到重视,很多的改进型k匿名算法被提出,能够实现在满足隐私要求的同时保持匿名数据在挖掘分类中的可用性。本文从数据可用性和安全性两个方面综合考虑,对微数据发布隐私保护技术进行研究,具体工作点如下:(1)通过对数据挖掘分类分析方法的研究,提出了基于属性权重的匿名化方法。该方法考虑到不同属性在分类挖掘中所发挥的作用不同,所以在数据匿名化过程中,对分类分析重要的属性进行较弱泛化,而对分类分析不重要的属性进行较强泛化,并采用了信息增益比率作为度量来控制泛化程度,从而可以得到对分类挖掘分类可用性更好的匿名化数据。基于该思想改进了Bottom-Up算法,实验证明,改进后的Bottom-Up方法能够得到可用且安全的匿名数据。(2)提出了一种面向分类分析的匿名模型,即首先用信息增益比率确定最优泛化层次,然后把每一个属性都泛化到相应的层次。同时,定义了一种抑制策略来处理还没有满足隐私约束的等价类元组。在本文中,基于以上思想提出了一种加权全域泛化算法(WFDG)。实验结果也证明了所提出的方法能够得到高质量的隐私数据。