基于分类数据的差分隐私保护研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:shifujia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,每天有大量的数据产生。这些数据非常宝贵,且对于社会的发展和科技的进步都有非常重要的意义。然而,人们的隐私问题也遇到了空前的挑战。近年来,隐私泄露事件频发,泄露的数据类型广泛,其中不乏像性别、学历、宗教信仰这样的分类数据。攻击者可以通过直接获取原始分类数据或对原始分类数据进行分析窃取用户的隐私信息。因此,对分类数据进行隐私保护是重要且必要的。相对于传统隐私保护技术来说,基于严格的数学基础之上的差分隐私技术可以抵抗背景知识攻击,并能够对隐私泄露的风险进行定量分析,且保留了良好的数据可用性。如何使用差分隐私技术对分类数据进行保护是一个重要的研究课题。在数据处理流程中,数据收集和分析阶段易发生隐私泄露。本文针对这两个阶段考虑对分类数据的隐私保护。在数据收集阶段,考虑到用户原始分类数据泄露的问题,提出基于本地化差分隐私的分类数据收集机制。用户向数据收集者提供隐私处理后的分类数据,来保障分类数据在收集及后续处理中用户的隐私不被泄露。在数据分析阶段,若原始数据已被直接收集,那么对原始数据进行分析则可能会泄露用户额外的隐私信息,例如最常见的分类数据聚类分析算法k-modes可能会泄露样本点或数据集的隐私信息。因此,为了保证k-modes聚类分析过程中用户的隐私不被泄露,本文基于ε-中心化差分隐私对k-modes聚类算法进行改进。论文的主要研究工作如下:(1)提出基于本地化差分隐私的易于实现的分类数据收集机制。考虑到一些本地化差分隐私机制的实现较为复杂,该机制主要通过编码、加噪、取整、取模和解码简单五步实现对分类数据隐私的保护。根据一维和多维分类数据的情况,本文分别给出了对应的收集算法以及转移概率,并对算法进行了各自的效用和隐私分析。其中,效用由输出数据相对于输入数据的准确率来定义,隐私水平由本地化差分隐私机制的“真实”隐私水平也就是最小隐私水平来度量。此外,在不同的噪声分布以及数据分布下,本文对机制的多个特性进行了实验验证和探究。实验结果表明,本文提出的分类数据收集机制可以有效地保护分类数据的隐私,且保留分类数据的可用性。(2)提出满足差分隐私的分类数据k-modes聚类算法。本文详细分析了k-modes聚类过程中的隐私泄露问题,并采取ε-中心化差分隐私最常用的拉普拉斯机制和指数机制对聚类中心点的选择过程进行干扰以达到隐私保护的目的。根据不同的噪声分布,本文提出了三种满足差分隐私的分类数据k-modes聚类算法,对上述算法进行了隐私性分析以及在不同的数据集上聚类效果的比较。实验结果表明,本文提出的分类数据k-modes聚类算法可以在保证聚类效果的基础上对分类数据的隐私进行保护。
其他文献
近年来,随着互联网领域的迅猛发展,社交网络、电子商务的发展也越来越迅速,人们通过互联网在社交软件上沟通交流,使用淘宝、京东、拼多多等电子商务平台进行线上购物。互联网在给人们带来诸多便利的同时,引发的隐私泄露事件也时有发生。许多企业和组织从各自领域收集到了诸多用户数据,这些大量的数据背后往往蕴藏着许多有价值的信息,企业和组织将这些信息交给数据挖掘人员进行分析以得到数据背后的价值,指导企业和组织的进一
学位
超声剪切波弹性成像技术(SWEI)是近年来医学超声发展的热点,提高剪切波速度估计的准确性是该技术的关键。本文针对目前剪切波速度估计方法中的不足提出了实时曲线追踪方法(RTCT),并且进行了如下研究工作:(1)在峰值方法的基础上,基于超声设备的帧速率稳定性和准确性,通过图像处理技术以及空间滤波处理,提出了一种对于剪切波速度估计的实时曲线追踪方法。(2)使用实时曲线追踪方法在标准超声体膜040GSE的
学位
再生(Regeneration)—直以来都是生命科学的研究热点,涡虫因其独特的再生能力被视作研究再生的最佳生物模型。本实验室前期研究发现,日本三角涡虫(Dugesia japonica)头部损伤再生过程中,Drp1与Mfn1的动态平衡在损伤后再生中的两个关键点,即第2天胚基的形成及第5天神经系统及组织分化的形成过程中起着决定性的作用。说明在涡虫再生的关键阶段,干细胞分化需要更多的线粒体提供能量。再
学位
噪声问题在我们生活中无处不在,传统多孔声学材料对于中高频噪声有较好的吸收效果,但是,对于结构振动引起的具有超强穿透能力的大波长低频噪声的控制一直是噪声控制领域最具挑战性的问题。近年来,声学人工结构的发展使得低频声波的调控具有可行性,而基于空间折叠理论的迷宫结构及弯曲盘绕结构的设计,也得到了研究者们的广泛关注并成为低频吸声降噪研究的重要方向。因为通过空间声场的折叠来实现声传播路径的增加,可显著降低结
学位
孤独症泛称孤独症谱系障碍(autism spectrum disorders,ASD)核心症状表现为社会交往障碍、重复刻板的兴趣和行为。孤独症的发病率高达1~2%,世界范围内其发病率还在持续增加。孤独症的病理机制比较复杂,一般认为,遗传因素和环境因素的相互作用是孤独症发病的主要原因。内侧前额叶(medial prefrontal cortex,mPFC)与社会认知、情绪等高级神经功能密切相关,孤独
学位
耳穴疗法作为中医临床常用的治疗手段,对睡眠障碍的改善效果显著。从操作手段来讲,由于耳部皮下脂肪少,针刺容易扎伤软骨,甚至造成耳廓感染。所以,临床上对于耳穴往往不用针刺,而采用贴耳豆的方式,但这种方式要求患者自己用手按压来配合,不易量化和标准化。低强度超声以其穿透力强、无创、安全以及在生物组织中会产生明显的机械效应、热效应和空化效应等生物效应的特点,非常适合于耳穴等特殊身体部位的治疗。然而,目前对于
学位
丹参(Salvia miltiorrhiza Bunge)为唇形科鼠尾草属多年生药用草本植物,因其基因组小和转化体系高而被称为模式药用植物。丹参药用部位为根和根茎,有效成分主要是可用于治疗冠心病、心肌梗塞等心脑血管疾病的丹参酮和丹酚酸类次生代谢产物,因此丹参具有着极高的药用价值。近年来关于丹参的研究热点已逐步集中于在使用基因工程等技术手段来提升丹参中代表性次生代谢产物的含量。DELLA转录因子是参
学位
水是人类和生物赖以生存的物质基础,在过去的几年里,水质一直受到各种污染物的威胁。水质监测对水污染控制具有重要的意义,自1998年起,我国先后在七大水系重点流域设置水质监测点,后续随着制度的不断完善,各个地方根据需要设置地方级水质监测点。通常,水体监测指标温度、色度、浊度、pH值、电导率、悬浮物、溶解氧等可以使用简单便捷的仪器直接测定。总氮、总磷、总有机碳等监测需要大量的人力物力进行采样分析和检测,
学位
光甘草定(疏水性黄酮)和甘草酸(三萜皂苷)为光果甘草(Glycyrrhizaglabra L.)中两种主要成分,具有抗炎、抗氧化、抗癌和免疫调节等多重药理活性,广泛应用于食品、药品和化妆品等行业。目前,国内光甘草定和甘草酸的生产仍处于原料初级加工阶段,深加工工艺主要以甘草酸的生产加工为主,而高附加值的光甘草定随药渣弃去,造成了光果甘草资源的极大浪费。而且,在工业化生产光果甘草活性成分时,提取过程普
学位
汉江上游与嘉陵江上游均位于秦岭南侧,是我国东亚夏季风与冬季风的交汇地区,环境变化具有独特的区域性。汉江上游与嘉陵江上游的盆地内分布有较大面积的厚层黄土,在此基础上发育而来的土壤是当地主要的土壤资源。但对这些土壤的研究程度较低,且现有资料均是以土壤发生分类为基础进行的研究和阐述,对其系统分类缺少应有研究。本文选择李家河(LJH)剖面和杨家山(YJS)剖面作为汉江上游和嘉陵江上游地区典型黄土母质土壤代
学位