论文部分内容阅读
随着数字化技术的快速发展和移动互联网的广泛普及,人们的日常生活、工作信息越来越多的被数字化并被海量移动终端、智能处理设备收集和使用,使得互联网上的数据量爆炸式增长,促成了大数据时代的到来。大数据中蕴含着巨大的商业价值,目前各行各业都致力于大数据的挖掘和分析,然而随之而来的还有一系列隐私问题。大数据往往包含用户大量的敏感信息,而未经处理直接发布或共享原始数据,将不可避免地造成用户隐私泄露。近年来,数据隐私保护问题受到广泛关注,数据隐私保护模型和技术得到了一定的发展。然而,随着数据体量日益增大、数据类型愈发多样、存储系统日益复杂,基于单个计算节点的数据隐私保护模型、算法和相关技术难以满足大数据背景下的隐私保护需求。针对上述需求和问题,本文基于Spark并行计算框架设计并实现了可灵活配置、支持多数据源、多种数据脱敏算法的大数据脱敏系统。本文的主要工作如下:1)首先对数据脱敏的研究背景和研究现状进行了介绍,包括数据匿名化的基本概念、传统脱敏方法和广泛应用的k-anonymity和l-diversity匿名化原则,并进一步介绍了本系统实现所基于的Spark并行计算框架。2)基于数据脱敏的基础知识和现有研究,本文基于Spark并行计算框架设计了分布式k-anonymity算法和分布式l-diversity算法。首先针对广泛应用的k-anonymity匿名化原则,设计了启发式键值分发算法,二元K-聚类算法和进一步提升运算速度的快速二元K-聚类算法,以支持在分布式环境下对大规模数据集执行满足k-anonymity匿名化原则的脱敏运算。然后针对/-diversity匿名化原则,本文延续k-anonymity匿名化算法思路提出了快速二元聚类算法的l-diversity拓展算法和基于敏感属性分发的划分算法来支持大数据下的l-diversity脱敏运算。3)本文通过数据接口模块,任务调度模块,脱敏规则管理模块和脱敏算法模块设计并实现了基于Spark并行计算框架的大数据脱敏系统。本系统使用角色权限控制技术分别对系统的两类使用者:数据拥有者和数据消费者设计并实现使用接口,提供注册、管理和基于SparkSQL、HIVE表映射等多种数据源的计算服务,并在脱敏算法模块封装了多种基于列处理的传统脱敏方法、满足k-anonymity匿名化原则的快速二元K-聚类算法和满足l-diversity匿名化原则的基于敏感属性分发的划分算法来支持不同场景下的脱敏需求。最后,本文对提出的k-anonymity算法和l-diversity算法进行了性能对比分析,完成了系统模块测试和功能测试,证明了系统的可用性。