论文部分内容阅读
在现今大数据环境下,结构化隐私数据的保护有着数据量大、数据格式类型复杂、加密后需保留可供分析能力等不同于传统隐私保护的特殊需求。为了解决上述问题,本课题针对面向大数据发布的保留格式加密(FPE)技术展开研究。通过保留格式加密技术,加密后的海量数据既能够保留原有的数据格式,使其密文依然能够满足原有的格式约束,并且经过脱敏的数据还能通过解密还原为明文格式数据,保留并隐藏了明文的全部信息量。本课题首先提出基于二分段高伪随机置换的基础FPE方案,并利用该方案设计了多种结构化数据的FPE方案,将其他结构化数据明文向基础FPE方案的消息空间进行转换和映射进行保留格式加密,再向原始明文空间进行逆映射,实现数据库中常用数据类型FPE方案的设计。随后对具有多种强格式数据类型的数据的保留格式加密流程进行了设计,提出强格式数据的保留格式加密通用模型,适用于包含多种类型的数据及复合型数据的保留格式加密。对于数据加密后需要安全提供给第三方进行数据挖掘的应用场景,本课题提出保留段区间属性的大数据保留格式加密方案。面向大数据的FPE方案分为均衡段区间以及非均衡段区间两种,能够实现密文在保留格式的基础上还保留明文所属的段区间属性,大大减小了加密后的密文进行挖掘分析的准确度的影响。另一方面为了提高对海量数据执行保留格式加密的效率,本文基于Spark平台以及HDFS系统设计了基于大数据框架的保留格式加密技术,通过并行计算的方式应对海量数据的加密需求。最后本文为了对面向大数据发布的保留格式加密方案进行验证,搭建了一个基于Spark平台的分布式原型系统,在系统上实现了面向大数据的保留格式加密应用。该原型系统支持对文件夹、TXT文件、CSV文件以及Excel文件执行FPE,根据用户指定的加密方案以及输入的密钥执行保留格式加密。经验证该面向大数据的FPE原型系统有效提升了加密的效率。通过选取公开数据集分别对明文与密文进行挖掘分析后的准确度进行比较,证明保留段区间属性的FPE方案对于类目型数据能够保留原有全部属性,对于数值型属性能够保留一定的特征,减少了传统保留格式方案对属性特征的影响。