基于聚类的匿名化隐私保护技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yin2002cn2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术和信息网络的快速发展,越来越多的数据被收集,发布和使用。一些基于互联网的企业也储存了很多相关的敏感隐私信息,这些信息一旦被泄漏,会给企业的发展带来严重的后果。在各个行业众多的企业中也储存了很多关于客户的隐私信息,如果这些信息泄漏也影响着客户的流失。此外各种社会机构、政府等也收集了很多关于个人的隐私信息,个人的隐私信息如果泄露也会造成不良的社会影响。针对以上情形,个人、企业和政府也越来越重视隐私安全,隐私泄漏问题已然成为网络社会中一个严峻的问题。  在数据的发布过程中,如何保护隐私敏感信息不被泄漏已经成为信息安全研究领域的一个热点问题。基于聚类的匿名化隐私保护技术是近些年研究隐私保护的热点技术,凭借着其独特的优势和深远的研究价值,同时有许多需要去改进的方面,是一个值得继续深入研究的课题。针对数据发布过程中,既要使得发布数据的隐私信息得到更好的安全保护,又要使处理之后的数据还能在科研界有一定的可用性,本文所做的主要工作包括:  1)概括和分析了该领域的国内外研究现状,介绍了匿名化隐私保护技术的相关知识,分析和归纳了各种隐私保护技术、匿名化技术、匿名化原则和匿名化攻击。  2)针对链接攻击导致的隐私泄露问题,以及为了尽可能减少匿名保护时产生的信息损失,提高发布数据集的可用性,基于聚类的的思想,提出一种面向个体的基于变长聚类的个性化匿名保护方法。该方法充分考虑记录权重值对聚类簇中心结果的影响,以提高数据的可用性,并对敏感属性值进行分级处理,将敏感属性值分成三个等级类,响应不同个体的保护需求。分析了该方法的正确性和安全性并做了实验测试对比。  3)针对l-多样性匿名数据集易遭受相似性攻击和偏斜性攻击的问题,同时为了满足敏感属性个性化保护需求,提出一种个性化的(λα,l)-分级匿名模型。该模型在满足每个等价聚簇中至少有l个敏感属性值的基础上,对敏感属性值进行分级处理,并通过限制等价类簇中出现的最高频率来灵活可变的控制隐私泄漏的风险。在该模型基础上给出一种基于聚类的个性化分级匿名方法,对方法做了实验测试与分析,该方法以更少的信息损失提升匿名数据集的安全性。  本文的创新点包括:  1)提出一种基于变长聚类的个性化匿名保护方法,该方法能满足敏感属性个性化的保护需求,数据匿名过程中有更少的的信息损失,能保持更好的可用性,同时提高了匿名效率。  2)提出一种改进的个性化匿名模型,该模型以更小的信息损失达到隐私保护的目的,同时满足敏感属性值个性化分级保护需求。  3)提出一种改进的基于l-多样性的聚类的分级匿名保护方法,该方法在l-多样性的基础上实现更高的安全性,降低了信息损失。
其他文献
随着Web技术的快速发展及广泛应用,Internet上的Web页面数目开始呈指数级的速度增长,如何结合语义知识来挖掘分析用户对Web页面的访问行为成为一个重要的研究方向。这里分别从
在树木中,叶片是其重要的组成部分,人们在识别树木或者建模时,树干仅仅起到了辅助作用,而树叶的真实感与否才是关键。目前基于点云的叶片方法在树叶建模的细节特征和逼真性方
近年来,人们对高质量视频流应用的需求不断增长,同时无线频谱资源也日益紧缺。无线接入点及移动设备的大量普及给无线网络视频流传输带来压力和挑战,也为基于无线中继网络的协作
基于轮廓信息的图像模式匹配广泛应用于工业、农业、商业和生活中的各个领域,是计算机视觉中一个重要的研究课题。其现有方法按技术路线可分为自下而上和自上而下两类。其中,自
作为基于位置应用的基础服务,室内定位系统实现了无线环境下的室内位置感知。指纹定位技术利用收集室内环境所能接收到的Wi-Fi或ZigBee信号强度应用机器学习算法来推断当前用
以太网光纤通道(FCoE,Fibre Channel over Ethernet)是一种新兴的存储区域网络协议。可将光纤通道协议帧封装在以太网帧内,通过增强型以太网进行传输,实现现有的传统局域网和存储
超分辨率重建技术是通过融合多帧同一场景的低分辨率图像得到一个更高分辨率、更清晰图像的技术,是图像增强的主要分支。但是现存算法仍存在着噪声鲁棒性不强的问题,算法难处理
随着信息技术的飞速发展和用户需求的不断增加,软件开发技术呈现出多样化的发展趋势,其中比较有代表性的编程语言是Java语言。Java语言的广泛应用,提高了软件的开发效率,但给查找
随着深亚微米集成电路系统的快速发展,人们对数字集成系统的需求也在不断提高,希望能在同一块硅片上实现更多的逻辑功能,由此可编程逻辑门陈列(FPGA)已逐渐成为集成电路设计
视频编解码一类的多媒体流计算不仅计算复杂度高,而且计算过程中需要进行密集数据访问。片上多级Cache可以缓解计算速度与数据存取速度之间的差距。但是,片上Cache空间通常非常