论文部分内容阅读
在经济全球化和信息化的时代,信息瞬息万变,已经成为社会发展的决定因素。在信息社会中,信息和知识扮演着主要的角色。其中政务信息作为最重要的信息资源,收集、存储、使用和传播大量个人数据,涵盖了全社会信息的80%。为了更好地进行社会管理,提高公共服务质量,政务信息的公开与共享势在必行。随着政务信息的公开透明化,不可避免地将会造成政府、个人的隐私信息的泄露。因此,本文主要研究了现有的K-匿名模型在进行数据匿名化过程中存在的问题。针对这些隐私保护模型存在的问题,考虑匿名后数据可用性问题,提出了基于K-匿名的改进算法,并在此基础之上,形成了基于政务数据的隐私保护模型,解决政务数据在公开的过程中造成的敏感信息泄露问题。由此,经过处理之后的政务数据在公开时,有效保护隐私信息的同时,保证信息的可用性。本文主要完成了以下工作:(1)分析隐私保护数据发布的隐私及攻击类型。首先介绍了隐私保护数据发布过程,分析了数据发布过程中的三种角色,及可能产生隐私泄露的各个环节。接着,对于隐私保护数据发布中的三方面重要内容进行详细了叙述,分别是隐私保护模型、隐私保护方法和信息度量标准。(2)分析K-匿名隐私保护模型及类似模型,主要是(1,K)-匿名、(K,1)-匿名、(K,K)-匿名和K-隐藏模型,深入研究这四类模型在进行数据匿名化过程中存在的问题。在K-隐藏隐私保护模型的基础上,提出了改进模型,通过引入随机化及其他隐私保护策略,在提供同等数据可用性的基础上,更好地保护了用户的隐私信息。最后,在四类数据集上,对比分析改进之后的算法与之前提出的K-匿名保护方法。(3)构建基于政务数据的隐私保护模型。详细介绍模型中三个主要数据处理模块,数据预处理、关联规则分析和数据匿名化处理。通过常用的数据预处理方法来清理缺值的数据记录以及统一同一属性内数值的表现形式等;引入关联规则分析找出数据中非显式属性与敏感属性之间的联系,以更加合理的方式确定数据集的准标识符序列;整合改进的K-隐藏隐私保护算法,并辅以数据集取样和数据集二次验证,确保数据的安全性及保证数据的可用性。最后,通过实验,对比本文提出的隐私保护模型与其他算法处理之后数据集的查询错误率和执行效率,验证本文提出模型的有效性。