面向分类分析的数据发布隐私保护方法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:fjzxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行各业对数据共享的迫切需求,数据发布隐私保护技术取得了长足的发展。数据挖掘分类分析工作需要大量的数据支持,如何对发布的数据成功进行分类分析的同时保护隐私数据不被泄露成为了一个重要的问题。近年来,数据发布隐私保护技术的研究成为数据库领域的研究热点,k匿名模型是实现数据发布隐私保护的重要思想,然而现有的k匿名实现技术没有考虑匿名数据的具体应用情况,针对具体应用改进数据匿名化过程,从而得到面向该应用高质量的匿名数据,是一项非常有意义的工作。通过对数据挖掘分类技术和隐私模型相结合的研究,本文提出了面向数据挖掘分类分析技术来进行匿名化数据,不再要求匿名化过程造成数据信息损失量最小,而是要求匿名化过程对数据在挖掘分类中的影响尽可能的小,通过考虑各个属性在分类中的作用,提出属性的权重思想,即不同的属性在数据挖掘分类中表现的重要度可能不同,根据不同的属性在分类过程中的表现,定义不同的属性权重,从而在匿名化过程中进行不同程度的泛化。最近,面向分类分析技术的k匿名研究得到重视,很多的改进型k匿名算法被提出,能够实现在满足隐私要求的同时保持匿名数据在挖掘分类中的可用性。本文从数据可用性和安全性两个方面综合考虑,对微数据发布隐私保护技术进行研究,具体工作点如下:(1)通过对数据挖掘分类分析方法的研究,提出了基于属性权重的匿名化方法。该方法考虑到不同属性在分类挖掘中所发挥的作用不同,所以在数据匿名化过程中,对分类分析重要的属性进行较弱泛化,而对分类分析不重要的属性进行较强泛化,并采用了信息增益比率作为度量来控制泛化程度,从而可以得到对分类挖掘分类可用性更好的匿名化数据。基于该思想改进了Bottom-Up算法,实验证明,改进后的Bottom-Up方法能够得到可用且安全的匿名数据。(2)提出了一种面向分类分析的匿名模型,即首先用信息增益比率确定最优泛化层次,然后把每一个属性都泛化到相应的层次。同时,定义了一种抑制策略来处理还没有满足隐私约束的等价类元组。在本文中,基于以上思想提出了一种加权全域泛化算法(WFDG)。实验结果也证明了所提出的方法能够得到高质量的隐私数据。
其他文献
标准信息是指企业基本信息、企业标准备案、产品执行标准等信息。通过网络化及计算机技术手段提供标准信息的管理与服务。在填补省内空白的基础上进行二期开发。 本系统既
传统的HTML(超文本标记语言)只适合数据的浏览,而不适合数据间的交换。在Web领域,XML弥补了HTML的不足,它是由万维网协会(W3C)设计的用来自动描述数据信息的一种新标准语言。XQu
分类是数据挖掘领域的研究热点之一。在传统的分类学习中,假定每个样本只属于一个类别标签。而在现实应用中,每个样本可以和多个类别标签相关联,例如一篇关于巴西世界杯的新
随着计算机科学的发展,它与其他学科交叉产生很多了新的研究领域,其中与系统生物学的结合就是一个重要的研究方向。这主要包括两方面的内容:其一是计算机基础科学,例如进程代
网格计算的出现,使得人们可以利用分布在各地的闲散计算资源处理较为复杂的计算密集型的并行分布式应用。然而,如何将应用程序的任务调度到可用的资源上,是实现高性能的关键因素
非线性编辑系统从产生开始就在电视节目制作中得到了实际应用,并不断在应用中更新换代,取得技术的突破。但是由于非线性编辑系统在建设成本上很长时间都高居不下,使得很多地
本文以教学管理系统开发项目为背景,重点研究面向对象技术中的设计模式以及基于角色的访问控制(Role-Based Access Control,RBAC)在系统开发中的应用。教学管理系统的目的在
随着网络的普及和快速发展,信息可以利用网络更为方便的传输,但随之而来也产生了一些日益突出的问题。一是大量的信息资源给检索带来困难。二是网络信息安全的问题,恶意病毒
网络的迅速发展和广泛应用,正使企业的商业运作模式产生革命性的变化,企业信息系统占据了企业竞争优势的主体地位。由于各种灾难或突发事件而造成的业务服务中断,不能及时恢
IPv4地址空间匾乏、报头处理时间长和不适应现代面向流的网络信息传输,促进了IPv6协议的发展。由IPv4向IPv6的过渡将会相当漫长,并且是分阶段的。在过渡初期是许多分离的IPv6