基于聚类的匿名化隐私保护技术研究

被引量 : 17次 | 上传用户:fjfhmtv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术与互联网的飞速发展,越来越多的数据被人们收集、发布和使用,这些数据中可能包含了个体的隐私信息,因此,如何在数据的发布和使用中保护个体隐私成为学术界和工业界研究的热点问题。匿名化是解决数据发布中隐私泄露问题的主要技术之一,其基本思想是通过对准标识符属性执行泛化/隐匿操作发布精度较低但语义一致的数据,以实现隐私保护。自从Sweeney等提出k-匿名模型以来,由于匿名化技术能够简单有效地对发布的数据实现隐私保护,近年来得到研究者的广泛关注。由于最优数据匿名化问题是NP难问题,围绕如何提高发布数据的隐私保护程度、降低匿名化隐私保护的信息损失,已有多种启发式的k-匿名方法被提了出来。然而,这些数据匿名化方法主要是对准标识符执行泛化/隐匿操作,并未对敏感属性做任何约束,容易受到同质性攻击和背景知识攻击。为此,Machanavajjhala等在k-匿名的基础上,提出了l-多样性匿名模型,考虑了等价类中敏感属性值的多样性问题,要求同一个等价类中至少有l个“表现较好”的敏感属性值,进一步提高了匿名数据的隐私保护程度。研究表明:目前多数匿名化方法是基于泛化/隐匿技术的,由于其严重依赖于预先定义的泛化层或属性域上的序关系,使得匿名结果产生很高的信息损失,从而降低了发布数据的可用性;而且,现有匿名化技术重在对隐私信息的保护,却忽视了匿名数据的实际效用,导致匿名数据的可用性不高。本文的研究内容是设计基于聚类的匿名化隐私保护算法,主要涉及到匿名数据的隐私性、信息损失和可用性等方面的研究。希望在保护个体隐私的同时,最大限度地减少信息损失,提高匿名数据的实际效用,达到个体隐私保护与数据效用之间的合理平衡。本文的主要研究工作和创新点如下:(1)针对现有k-匿名算法对离群点敏感、信息损失较高等问题,提出了一种基于聚类的k-匿名改进算法。理论分析及实验结果表明,该算法通过“一次”聚类过程产生等价类,能够有效解决离群点敏感的问题,减少k-匿名数据的信息损失,提高发布数据的质量。(2)针对泛化/隐匿技术对l-多样性匿名数据质量的影响,提出了一种基于聚类的l-多样性匿名算法,该算法可减少信息损失,但存在偏斜性攻击问题,为此,又提出一种改进的基于敏感值约束的l-多样性匿名算法。理论分析及实验结果表明,改进后的算法不仅提高了敏感数据的隐私保护程度,而且能够有效减少l-多样性匿名数据的信息损失,提高发布数据的质量。(3)针对动态更新数据集匿名数据发布时存在的推理攻击问题,提出一种基于增量聚类的l-多样性匿名算法。理论分析及实验结果表明,该算法通过保持等价类签名不变以实现“完全”动态更新数据集的安全数据发布,具有较高的执行效率。(4)针对发布的匿名数据实际效用低下问题,通过构建准标识符属性对敏感属性的效用影响矩阵,提出了一种面向数据分类应用的l-多样性匿名算法。理论分析及实验结果表明,该算法在保护个体隐私的同时,能够较好地满足数据分类的应用需求。
其他文献
CBA联赛发展至今已走过了17个赛季,外籍球员作为中国篮球职业联赛改革后的产物,也已发展成为了联赛的重要组成部分,进入新世纪以来有多达350名外籍球员来到CBA参赛。外籍球员促
从国内外的现状来看,数字出版已经成为出版业未来竞争的制高点。尽管如此,出版的本质不受影响。中国出版集团在数字化方面作出的探索主要有:通过编制《中国出版集团公司数字
目的:为设计桡骨髓腔内固定器材提供解剖学基础。方法:成人桡骨30例,按20等份横断,观察髓腔形态,测量前后径和横径。结果:总体形态,桡骨髓腔上端横截面呈圆形或矢状位椭圆形,
<正>从互联网到移动互联网,从电子书到自助出版,从关注全民阅读到关注国民的数字阅读,出版业面对数字时代的斑斓浪潮,应接不暇。武汉大学信息管理学院出版科学系自2006年开始
目的:探讨转化生长因子β2(transforming growth factor beta2,TGFβ2)对大鼠胚胎心肌细胞H9C2心脏发育相关核心转录因子Mef2c和GATA4表达的影响及其与组蛋白H3乙酰化的关系。材
营运资金与企业的日常经营活动关系密切,企业一定时期资金盈利水平的高低,直接取决于企业营运资金管理水平的高低。因此,我们必须要重视企业的营运资金管理。本文在以前学者研究
毋庸置疑,金融自由化和经济全球化俨然已成为当今世界发展的主要趋势。越来越多外资银行加快其向全球扩张的步伐,外资银行的涌进对东道国银行业无疑有诸多裨益,如弥补国内资金不
加强高校创新创业教育,培养学生创新创业能力是现代教育的重要内容。广东商学院华商学院在经管类专业创新创业人才培养的实践中,构建创新创业平台;建立了"学科竞赛、科技项目
背景及目的儿童和青少年糖尿病95%为1型糖尿病(T1DM),主要是由于胰岛素分泌的绝对缺乏造成的,必须使用胰岛素治疗,所以又称胰岛素依赖型糖尿病(IDDM)。糖尿病肾病是糖尿病严重的慢性
植物多酚具有抗氧化、抑制心脑血管疾病、抗癌、抗骨质疏松活性、抑菌、抗病毒等多种活性功能,应用领域广泛。分析植物多酚在食品、医药、化工等领域的应用现状。