大数据脱敏系统的设计与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:ericc0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化技术的快速发展和移动互联网的广泛普及,人们的日常生活、工作信息越来越多的被数字化并被海量移动终端、智能处理设备收集和使用,使得互联网上的数据量爆炸式增长,促成了大数据时代的到来。大数据中蕴含着巨大的商业价值,目前各行各业都致力于大数据的挖掘和分析,然而随之而来的还有一系列隐私问题。大数据往往包含用户大量的敏感信息,而未经处理直接发布或共享原始数据,将不可避免地造成用户隐私泄露。近年来,数据隐私保护问题受到广泛关注,数据隐私保护模型和技术得到了一定的发展。然而,随着数据体量日益增大、数据类型愈发多样、存储系统日益复杂,基于单个计算节点的数据隐私保护模型、算法和相关技术难以满足大数据背景下的隐私保护需求。针对上述需求和问题,本文基于Spark并行计算框架设计并实现了可灵活配置、支持多数据源、多种数据脱敏算法的大数据脱敏系统。本文的主要工作如下:1)首先对数据脱敏的研究背景和研究现状进行了介绍,包括数据匿名化的基本概念、传统脱敏方法和广泛应用的k-anonymity和l-diversity匿名化原则,并进一步介绍了本系统实现所基于的Spark并行计算框架。2)基于数据脱敏的基础知识和现有研究,本文基于Spark并行计算框架设计了分布式k-anonymity算法和分布式l-diversity算法。首先针对广泛应用的k-anonymity匿名化原则,设计了启发式键值分发算法,二元K-聚类算法和进一步提升运算速度的快速二元K-聚类算法,以支持在分布式环境下对大规模数据集执行满足k-anonymity匿名化原则的脱敏运算。然后针对/-diversity匿名化原则,本文延续k-anonymity匿名化算法思路提出了快速二元聚类算法的l-diversity拓展算法和基于敏感属性分发的划分算法来支持大数据下的l-diversity脱敏运算。3)本文通过数据接口模块,任务调度模块,脱敏规则管理模块和脱敏算法模块设计并实现了基于Spark并行计算框架的大数据脱敏系统。本系统使用角色权限控制技术分别对系统的两类使用者:数据拥有者和数据消费者设计并实现使用接口,提供注册、管理和基于SparkSQL、HIVE表映射等多种数据源的计算服务,并在脱敏算法模块封装了多种基于列处理的传统脱敏方法、满足k-anonymity匿名化原则的快速二元K-聚类算法和满足l-diversity匿名化原则的基于敏感属性分发的划分算法来支持不同场景下的脱敏需求。最后,本文对提出的k-anonymity算法和l-diversity算法进行了性能对比分析,完成了系统模块测试和功能测试,证明了系统的可用性。
其他文献
试验研究了大豆浓缩磷脂、粉末磷脂、单硬脂酸甘油酯及单双硬脂酸甘油酯对面包品质及抗老化效果的影响。结果发现,在添加量为0.2%~1.0%时,4种添加剂对改善面包的感官品质、比
论述智能建筑的系统组成,结合在医院建筑工程中的实际应用,分析智能技术对建筑设计带来的影响,提出完善、提高智能化建筑的措施和意见。
为了改善暗缝式改性沥青伸缩缝的使用性能,文章简要介绍了暗缝式桥梁伸缩缝的构造,并通过模拟美佳伸缩缝,用不同厚度的钢板做实验,对伸缩缝装置的弯曲变形进行分析研究.文章
酚醛泡沫板外墙外保温系统具有优异的保温性与防火性,近几年在我国得到广泛应用。文中列举了酚醛泡沫板的特点,介绍了几种酚醛泡沫板外墙外保温系统的结构和施工流程,并从保
近年来,风电场装机的容量逐渐增加,而且在电源中的比重也有所提高,所以在一定程度上影响了电力系统规划和运行的效果。在此背景下,构建风电友好型智能电网的需求显得更加迫切
爱尚苑办公楼为高层钢结构办公楼,主体结构总高度98.55m,高宽比为3.57.整个结构属于扭转超限高层建筑.为验证结构的抗震性能,设计阶段采用了两种有限元软件SATWE和ETABS,通过
螺杆泵抽油系统设计是保证螺杆泵抽油系统正常运行的基础,而螺杆泵是该系统中的关键设备,选好螺杆泵十分重要.介绍了选择螺杆泵时考虑的主要因素,详细论述了选择螺杆泵的方法
给出推导二维相关光谱和推广至普遍意义上的数学过程 ,其物理含义和二维相关光谱的性质及其解释规则。以应用实例给出了该光谱技术在分析结构、相互作用等相关性方面的独特性
税务执法监督是指有监督权的国家机关、社会组织以及公民依法对税务机关及其工作人员行使税收执法权力的监督。税务执法监督一方面可以防止和纠正税务执法行为不当,保证纳税人
目的:探讨乳痈方联合外治法对非哺乳期乳腺炎患者症状改善及复发率的影响。方法:选取2013年6月~2018年5月收治的非哺乳期乳腺炎患者204例为研究对象,随机分为对照组和观察组