差分隐私保护的决策树集成学习

来源 :安徽大学 | 被引量 : 0次 | 上传用户:gdat86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G应用的快速普及,数据的规模持续增长。由于这些数据中通常包含着大量的杂乱信息,数据挖掘方向吸引了广泛的关注。其中,基于决策树的集成学习由于其精度高且能快速处理很高维度的数据等优点而被广泛使用。决策树所使用的数据往往包含大量的敏感信息,如果直接参与训练可能会泄露隐私。差分隐私是目前在数据挖掘领域常用的数据隐私保护方法,尤其基于决策树的差分隐私保护集成学习算法,一直是研究热点。本文围绕差分隐私保护的两类集成回归算法展开研究,主要工作包含以下两个方面:(1)提出了一种差分隐私保护的XGBoost算法(DP-XGB),解决了Boosting方向数据挖掘任务存在的一种隐私安全问题。为了保证决策树分裂准确性,突破了内部分裂函数敏感度界的精确估计的困难。考虑到随着迭代次数的增加,树内叶子节点值的变化所带来的敏感度的变化,本文提出了一般意义上的样本梯度值裁剪方案。通过收缩率最大程度限制了叶子节点的敏感度,从而在理论上最大限度地约束了噪声尺度。根据收缩率提出数据集分配方案,从而提高了样本的利用率,而且还尝试了单棵树内不同的隐私预算分配方式。(2)提出了一种差分隐私保护的随机森林算法(DP-RF),解决了Bagging方向应用场景中可能存在的一种隐私泄露问题。为了保证决策树中分裂内部节点的指数机制具有高效用,本文详细评估了分裂函数敏感度的界。由于叶子节点结果对模型的最终结果影响非常大,本文通过样本数降低了拉普拉斯噪声的扰动程度。为了解决隐私预算耗尽的问题,本文提出了新颖的决策树与决策树之间以及决策树内部节点和叶子节点的隐私预算分配思路。在公开的数据集上的实验结果表明,本方案能有效保护用户敏感数据,使得差分隐私保护的随机森林算法有更高的实用性。
其他文献
随着软件开发难度的增加,现在的开发者越来越注重复用开源软件项目,以提高开发效率和软件质量。因此,开源软件项目的数量爆炸式增长在为开发者提供更多选择的同时也让他们面临着信息过载的挑战。虽然传统的推荐系统可以解决这一问题,但它们通常无法充分利用开源软件社区中特有的信息。一方面,开源软件社区中天然存在社交影响、依赖约束和开发者的动态兴趣这三种信息。在社会化协同编程的过程中,开发者的兴趣会动态变化,也会受
学位
软件架构定义了系统结构并决定其质量,确保软件架构的合理性和可维护性对后续开发至关重要。架构异味是软件技术债务的具体表现形式之一,表明系统中存在潜在的问题,它们在软件开发的过程中不断积累且反复出现,阻碍了软件的可维护性和可重用性。除了传统架构中会存在架构异味外,近年来广受关注的微服务架构也受到微服务架构异味的影响。目前,对传统架构异味的定义已比较明确,但对其进行检测的效率和覆盖范围还有待提升;另一方
学位
微服务的诸多优良特性,如可伸缩性、可维护性,促使更多的决策者选择将单体迁移到微服务。研究人员们也提出了多种微服务拆分方法。然而,如何在迁移过程中适当拆分微服务仍然是一个棘手的问题。首先,不同领域的单体迁移需求各不相同,如何选择合适的微服务拆分方法却很少受到关注。其次,当前的微服务拆分主要依赖于架构师或领域专家,这比较主观且耗时。而半自动化或自动化的微服务拆分方法仅能产生粗粒度的结果,并且受不同系统
学位
现实世界中存在着如电力、交通等各种各样的复杂系统,在这些系统中存在着形形色色的实体及实体间的关系。网络这一数据形式由于具有表达实体间关系的能力,被广泛的应用于复杂系统的建模。基于这些真实的系统,研究人员发展了网络科学理论并提出了一系列的相关问题。作为网络科学领域中的基础问题之一,网络拆解目的在于从网络中选择一组节点,使这些节点的移除可以显著削弱网络的连通性能。而网络的连通性对于结构鲁棒性、信息传播
学位
在各种推荐系统中,用户对项目的数值评分和文字评论是反馈其偏好的主要信息。然而,传统的仅借助用户的评分来进行推荐的模型,如协同过滤,在数据非常稀疏的场景下无法有效工作。当前的一些仅使用评论信息进行推荐的模型也会受到评论稀疏性的影响。一方面,大多数场景下用户给出评分和评论都是相互关联和互补的,评论可以解释为什么用户对这个项目给予高或低的评分。另一方面,评分和评论分别从粗粒度和细粒度两个层面反映了用户的
学位
在科技迅速发展的时代,人们青睐于在各类平台上发表观点,产生大量的评论文本如电影评论、产品评论等。针对这些评论信息进行情感分析,可以指引消费者购买商品和观影,协助他们快速地做出判断。此外,也为生产者带来改进意见,促进产品质量的提高。因此,对这些评论文本进行情感分析具有重要的意义和价值。评论文本不仅基数大,而且生成的特征表示维度高且存在信息冗余。特征选择能够过滤冗余信息,更有效地进行情感分析。然而,现
学位
RGBT目标跟踪由于其全天时、全天候下卓越的跟踪性能受到了人们的广泛关注,现有的方法通过设计融合模块来实现有效的多模态融合,然而这些融合方法缺乏足够的表达能力,很难应对复杂的现实场景。此外,融合的RGBT特征有噪声和冗余,其中一些无用的特征甚至干扰目标的定位并导致过拟合问题。为了解决上述两个缺陷,本文围绕增强特征信息与特征选择展开研究,论文的主要工作如下:第一,给出了一种基于交叉注意力的RGBT目
学位
在数据可用性不断增强的现实背景下,聚类分析作为挖掘数据之间关联性的重要工具得到了广泛应用,该方法采用无监督的机器学习方式,从无标记的海量数据集中获取有价值的信息和知识。K-ea算法是其中最经典的优化模型之一,因其具有操作简单、局限性已知、能够迅速收敛等优点,被应用于各种聚类分析领域。然而K-ea算法具有易错误初始化类簇中心、易迭代陷入局部最小值、非凸型数据集处理性能差等问题,使得该算法的聚类划分结
学位
随着科学技术的快速发展,用户可获取的信息越来越多,随之而来的“信息过载”问题造成了用户很难在海量信息中快速定位自身所感兴趣的内容。推荐系统作为解决这一问题的有效手段而受到广泛的重视。然而随着用户和项目的数量不断增长,导致个性化推荐面临着一些挑战:其一,用户对项目的历史交互信息中包含着丰富的数据信息,如何有效的建模这些数据来学习户和项目的特征,对于预测用户的偏好至关重要。其二,现有的低阶线性推荐模型
学位
近年来心血管疾病对于人类的危害日益加深,已经逐渐成为全球死亡人数最高的疾病之一。因此,有效的辅助医生快速且准确获取病变区域信息可以帮助医生诊断病情以及制定有效的治疗方案。目前针对这方面的研究主要是从心血管图像中分割出目标区域并根据分割结果来计算临床指标,医生可以根据这些指标数据来对患者病情进行诊断。早期心血管图像分割主要是依赖于临床医学工作者手工从心血管图像中轮廓,这种方式不仅非常耗时而且效率低下
学位