基于特征排序的数据预发布隐私保护研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jiangtaizhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,随着计算机技术和人工智能技术的快速发展,在世界范围内有越来越多的数据被记录、存储和使用。大量数据伴随着互联网的广泛应用,促进了科技的进步,给人们生活带来了便利。随着数据分析技术的发展和各式各样数据挖掘算法的提出,数据的传播和共享越来越频繁。文本、语音以及图像等多样化数据更为广泛的传播,使得人们隐私受到严重威胁,数据隐私保护成为越来越严峻的问题。如何在保护数据隐私的同时还要保留数据一定程度上的可用性是数据发布隐私保护领域的研究热点。因此本文利用特征重要性排序设计隐私保护算法,对发布前数据进行隐私保护预处理,主要贡献包含以下两个方面:1)K-匿名是文本数据发布隐私保护常用模型,而K-匿名特征选择是有效权衡数据隐私与可用性的方法。已有的K-匿名特征选择方法大多是过滤式方法,对单个特征按照特征重要性进行排序,从特征排序中选取当前最重要的特征开始搜索K-匿名特征子集。因为每个特征并不是独立地对分类器输出结果产生作用,这种搜索策略没办法保证最终选择的特征子集在分类性能和隐私保护之间达到很好的平衡。过滤式方法独立于分类算法,对分类器的分类性能影响有限,而另外一种特征选择形式是封装式特征选择方法,根据后续模型的性能来评价特征子集的优劣,时间成本较大。因此,针对过滤式方法独立于分类器的限制与封装式搜索成本大等问题,本文结合过滤式与封装式的特点,设计了一种混合式K-匿名特征选择算法,把K-匿名判断条件作为特征选择的评价标准,将K-匿名特征选择归类为K-匿名隐私保护中的隐藏手段。基于前向搜索策略和K-匿名条件产生更多的K-匿名特征候选子集,再根据封装式分类器评价候选子集分类性能,从而选出高效且具有隐私保护能力的特征子集。2)对抗攻击技术常用在图像数据发布隐私保护中,已有基于对抗扰动的隐私保护方法可以生成肉眼难以区分的新图像在可用性上得到保证,但高度依赖于目标模型而不能在多种模型上具备可迁移性。针对这些问题,本文提出了一种可迁移的基于特征重要性对抗攻击的图像隐私保护算法。利用泛化性更好的特征重要性指标设计损失函数并在扰动生成过程中引入扰动随机丢弃操作,提升迁移性。最后在两个公开图像数据集上进行实验,证明了本文提出的基于特征重要性对抗攻击的图像隐私保护算法有效提升了不同模型间的迁移能力。
其他文献
非线性多智能体系统广泛应用于民生和国防领域,如飞行器、机械手和智能电网等。传统非线性多智能体系统的一致控制技术通常采用复杂的控制器结构。对于处理非线性系统中未知动态的神经网络技术,其权值更新律的设计依赖于确定-等价原则,仅有有限的动态调节性能。同时,多智能体系统运行时不可避免的受到执行器故障和有限通信资源的影响。浸入与不变(immersion and invariance,I&I)理论依赖于系统浸
学位
广义测量(Positive Operator-valued Measurements,POVM)在量子信息领域发挥着举足轻重的作用。本文主要针对POVM在测量设备无关量子随机数发生器(Measurement-deviceindependent Quantum Random Number Generator,MDI-QRNG)与量子随机存取码(Quantum Random Access Code,Q
学位
经济调度作为智能电网系统的运行和控制中的关键问题,在能量管理中显得尤为重要,合理有效的完成调度任务对提高电网经济效益有着极大的影响。分布式经济调度是一种新型发电调度策略,能较为灵活、高效的调节发电状态,提升能源利用效率。此外,收敛速率作为评价系统性能的重要指标,直接影响着系统运行质量。常规的收敛时间有渐近时间收敛,有限时间收敛,以及固定时间收敛。渐近时间策略的收敛时间为无穷大,有限时间策略的收敛时
学位
近年来,无人机凭借其灵活性高、实时性强、监测范围大的优势,被广泛应用于农林植保、电力巡检、交通巡查等行业。随着其应用场景的不断扩展,行业前景也越发广阔。城市安防也是无人机应用落地的重要领域之一,无论是春运、晚会等大型活动安保,还是管控防疫等日常巡查,无人机均能大大缓解治安管控压力。然而,现阶段无人机在行业应用中只起到视频采集的作用,对于图像内容的判断还需要依靠大量人力和时间。随着人工智能的飞速发展
学位
issue追踪系统作为Github的重要组成部分,越来越多的用户和开发者使用它提交问题报告。这些问题报告可以是项目中存在的缺陷,也可以是期待的新功能等,简称为issue。通过提交issue,一方面可以让开发团队更好地了解用户的需求,另一方面也能促进软件项目的迭代和完善。然而在一个项目中通常有数百个issue,开发人员逐条审阅和处理需要消耗大量的时间和精力。Github提供了标签机制来为加快issu
学位
情感分析是自然语言和图像视频处理领域研究的热点问题之一,近年来,随着人工智能的发展和大数据时代的到来,博客、微博、论坛等社交媒体,电商平台以及各种新闻网站已经成为人们日常表达情感与获取信息的重要平台,从而也产生了海量的带有个人情感倾向的文本、图片和视频等数据。针对这些数据的研究对提升平台的服务质量、帮助商家更好地进行产品宣传与销售、进行舆情监控以及个性化推荐等具有积极作用。研究者们最早主要关注于对
学位
量子行走是经典随机行走在量子世界的对应。量子行走与经典随机行走相比具有二次加速特性,基于量子行走的算法效率更高。量子纠缠是量子行走除了二次加速特性之外的另一个重要特征,有两个纠缠粒子的量子行走算法可以区分所有的非同构图,而没有纠缠的量子行走算法只能区分其中的一部分。量子行走中纠缠度量和扩散的研究已引起人们的广泛关注。本论文围绕量子行走中纠缠态的制备和度量展开研究,主要做了以下工作:(1)实现了非均
学位
非正交多址(Non-Orthogonal Multiple Access,NOMA)技术的核心思想是在同一个资源块同时为多个用户提供服务。但是由于NOMA接收端串行干扰消除(Successive Interference Canaeller,SIC)解码的特殊性,将用户全部通过NOMA服务会使得接收端的复杂度很高同时解码错误大大增加。因此,有必要将用户分簇/配对,分簇/配对后的用户通过NOMA服务
学位
随着CT影像技术在现代医学诊断和治疗过程中的应用越来越广泛,CT检查中潜在的辐射风险也引起了人们的广泛关注,过量的辐射容易诱发白血病以及癌症等疾病,因此,降低CT扫描过程中的辐射剂量刻不容缓。使用间隔一定角度扫描的稀疏采样方法可以获得辐射剂量低的稀疏角度CT图像,但是获得的稀疏角度CT图像中存在伪影,降低了图像的质量,影响医生的诊断。本文以去除稀疏角度CT图像中的伪影和增强CT图像细节为目标,构建
学位
随着服务机器人在家庭环境中的广泛使用,如何让机器人有效地学习复杂操作技能是机器人操作技能学习领域的研究重点。本文基于行为树和强化学习针对家庭环境中的开门放置药瓶复杂操作技能,从模仿学习和强化学习两种角度开展研究。论文主要研究内容如下:(1)结合软硬件建立了服务机械臂操作实验系统和技能学习框架。操作实验系统通过ROS将系统软硬件进行连接,完成了Kinecct V2相机与Kinova Jaco2机械臂
学位