基于T-Closeness的大数据脱敏系统的设计与实现

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:qwc198762
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代数据的发布与共享推动了科学研究的发展,也为人们的生活带来了便利,然而直接发布或共享未经处理的数据很容易造成个人隐私的泄露。近年来满足隐私保护的数据发布得到了产业界和学术界的普遍关注。数据脱敏是对数据集进行处理以减低敏感信息泄露的概率的技术。数据匿名化技术是应用最广泛的数据脱敏技术之一,通过对数据进行随机映射、统一泛化等操作,使发布的数据无法关联到任何具体个体。T-Closeness是一种有效的数据匿名化模型,相比于K-Anonymity、L-Diversity等模型,它能够抵御语义攻击和概率攻击,提供更强的隐私保护。在大数据场景下,集中式T-Closeness算法脱敏效率低,受单机内存限制,难以满足海量数据的脱敏需求。因此,具有高脱敏效率的分布式T-Closeness算法的研究显得尤为重要。本文着重研究了大数据场景下分布式T-Closeness算法的设计,基于现有的三类典型T-Closeness算法,对应地提出了三种高效的分布式T-Closeness算法。由于实现方式的不同,三种分布式T-Closeness算法具有不同的特性,数据拥有者可以根据应用场景选择合适的算法进行数据脱敏。本文基于Spark分布式计算框架实现了所提出的三种分布式T-Closeness算法,并对算法的效率和可扩展性等指标进行了测试。实验结果表明,与直接的方案相比,本文所设计并实现的三种分布式T-Closeness算法均具有更高的效率和更好的可扩展性。基于所提出的三种分布式T-Closeness算法,本文设计并实现了一套大数据脱敏系统。本文首先对大数据脱敏系统进行了需求分析,提出了系统的功能性需求和非功能性需求。然后介绍了系统的设计,包括模块划分、交互关系、接口设计和数据表设计等。系统包括Web前端模块、权限管理模块、泛化树自动配置模块、脱敏算法模块和基础设施模块五个模块,以支持分布式脱敏、数据表权限管理、脱敏后数据下载、泛化树自动配置等功能。接下来本文介绍了系统的实现,包括技术选型、工作流程和分模块详细实现。最后本文通过系统功能测试和非功能测试验证了所实现的大数据脱敏系统与设计预期一致。
其他文献
通过分析林业生态技术创新的内涵及传统经济发展观的理论缺失,阐述林业生态技术创新的可持续发展功能,生态技术创新是林业可持续发展的必然选择。
本文简要就美术专业中的广告设计目前的教学体系现状出发,并借鉴国外广告设计教育的经验和做法,提出了关于广告设计教育的一些拙见。
<正>一、问题背景工作压力(JobStress)是指在工作环境中,使工作行为逼迫与威胁的压力源长期持续地作用于个体,在个体的主体特性及应对行为影响下所产生的一系列生理、心理和
在注重科学探究,培养学生解决实际问题能力的今天,阅读能力的高低在一定程度上限制了学生解决问题的能力。阅读可以扩大知识面,使人的思维严谨,在汉语文为第二语言的少数民族地区
环境行政指导是环境行政主体在其职责范围内,为实现一定的环境行政目的而灵活实施,但只有在征得相对人同意后才产生法律效果的单方环境行政行为。在此基础之上分析了环境行政指
硝基苯类化合物是一类高毒性的有机污染物,它性质稳定,难生化降解,许多国家都将其列为优先控制的污染物。因此,硝基苯类废水的治理成为近年来环境工作者研究的热点课题。本文
最优路径问题是智能交通系统中路径诱导系统的核心问题。基于实时路况的交通网络耗时最优路径,是车辆实现实时导航的基础。结合实时路况信息,及时选择与调整最优路径,不仅有
国家节能减排政策实施后,按照"上大压小"的原则,贵州电网火电厂小机组相继退役,由大机组取而代之,其中部分火电厂在原有的基础上进行了升压站改(扩)建,但由于运维监管不到位
<正> 邓宝驹等人侵吞信用社资金两亿多元,依法被控职务侵占罪,该罪最高法定刑是15年有期徒刑,如同种情况发生在国有企业,则可判贪污罪,最高法定刑是死刑,两者差别很大。这样
随着科学技术的进步及现代企业制度的建立,在新时期加强企业劳动定额管理工作十分重要,本文结合国内劳动定额管理工作现状及发展趋势,分析企业实施劳动定额信息化建设的必要