基于差分隐私的集成分类算法及应用研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:cxdong54321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据、云计算的快速发展是机器学习在人工智能、大数据分析领域成功的关键因素。机器学习已广泛应用于医疗诊断、个性化推荐等服务领域,然而数据集中通常都含有私有或敏感信息,如医疗诊断信息、电子商务购物信息等。由于机器学习模型本身会泄漏训练数据中的个体信息或敏感属性,例如成员推断攻击、模型反演攻击等,机器学习中的隐私保护问题已是目前信息安全领域的研究热点之一。针对机器学习中数据模型发布和分析时的个人隐私泄露问题,本文以研究差分隐私保护约束下AdaBoost集成分类算法的模型发布机制及应用为目标。在集成学习模型训练中引入差分隐私机制,保护训练数据个体信息的同时兼顾集成模型的可用性。本文研究的主要工作有:(1)通过研究差分隐私约束下利用改进CART分类树的集成学习模型,提出基于差分隐私的AdaBoost集成分类算法CART-DPs AdaBoost(CART-Differential Privacy structure of AdaBoost)。算法在集成学习中引入Laplace噪声机制,使得模型训练过程满足差分隐私保护;为保护数据隐私的同时保证数据模型的有效性,引入样本扰动和特征扰动两类随机性方案,使用指数机制和Gini指数处理扰动后的数据特征来构建CART提升树,建立差分隐私保护下基于决策树桩的AdaBoost集成模型;进一步研究树深度对隐私模型的影响,分析不同隐私保护水平对集成模型分类性能的影响。实验结果表明本文所提方案在兼顾模型隐私性和可用性的同时具有较好的分类准确率。(2)通过研究差分隐私保护下集成分类模型在个性化推荐中的应用,针对高维度特征的标签数据集进行分类推荐,提出一种满足差分隐私的集成分类推荐模型,以保护用户的个体信息特征不会被推荐模型所泄漏。为了体现用户的个性化差异,以提取有效特征并构建特征组来刻画用户画像,在集成学习中引入特征优化策略:使用Gini指数优化特征数量,然后使用Relief F算法提取最优特征来构建差异化特征组,最后在各组构建Laplace扰动后的CART提升树,并通过AdaBoost集成学习预测用户偏好的标签类别。实验结果验证了本文基于差分隐私推荐模型的有效性。
其他文献
鸽圆环病毒(Pigeon circovirus,PiCV)属于圆环病毒科,圆环病毒属。病毒含有两个主要的开放阅读框,分别编码核衣壳蛋白(Capsid protein,Cap)和复制相关蛋白(Replication associated protein,Rep)。单纯的PiCV感染几乎没有临床症状,但能引起严重的免疫抑制,导致机体对病毒、细菌、真菌和寄生虫等各种病原体的免疫应答不足,进而引起严重的继
为了满足许多不符合银行标准而无法从银行获得贷款的客户需求,基于互联网的商业模式P2P借贷(Peer-to-Peer Lending)迅速兴起,已成为一个快速发展的金融平台,吸引了许多借款人和投资者。随着发展规模的日益扩大,信息过载使得投资者决策陷入困境。目前,已有面向P2P借贷个性化推荐的研究主要是将传统的个性化推荐方法应用到P2P借贷平台,然而P2P借贷推荐中的一些特有的性质使得该问题有别于传统
猪圆环病毒2型(PCV2)是单股负链环状DNA病毒,基因组长度1 767~1 768 bp,病毒粒子呈二十面体对称结构,无囊膜,病毒粒子大小约17 nm。PCV2导致猪免疫系统损害和抑制,严重损害猪的健康,并常继发或混合感染其他病原体,造成更为严重的损害。对PCV2的致病机制的揭示有助于更好的做好防控工作,对病毒编码产物的鉴定和功能研究是揭示PCV2致病机制的基础。生物信息学分析发现,PCV2的基
随着云计算技术的发展和网络安全知识的普及,数据隐私安全已经成为用户关注的重点。然而,用户直接上传密文数据到云端会使云服务器面临数据检索困难的问题。可搜索加密技术允许用户直接检索密文数据,满足了用户在云端存储和检索加密数据的需求。但是在传统公钥密码环境中,可搜索加密方案普遍存在证书管理和密钥托管问题,并且容易遭受来自系统内部或外部恶意攻击者发起的离线关键词猜测攻击。在医疗数据共享应用环境下,由于医疗
以全球变暖为主的气候变化对荒漠草原生态系统产生着强烈的冲击,荒漠草地生态系统因其自身的敏感性在探讨全球气候变化、碳元素生物地球化学循环及分析全球碳收支平衡等领域占据重要地位,明确荒漠草地生态系统与气候变化之间的相互作用关系,对于了解草地生态系统结构、功能,评估草地生态安全具有重要意义。本文选取内蒙古准格尔旗温带荒漠草原作为研究地点,使用CENTURY模型分析过去二十多年准格尔旗温带荒漠草原草地地上
医疗数据共享能够提高患者治疗的准确性,促进医疗研究机构的发展。然而,在医疗数据共享过程中存在一些安全问题。首先,患者可能会因为不同的症状去不同的医院就诊,导致医疗数据分散存储在不同的医疗机构,使患者失去对医疗数据的控制,不利于医疗数据共享。其次,医疗数据包含患者的敏感信息,若患者授权医疗机构将医疗数据外包给云服务器存储,当遭到恶意攻击时,容易引发数据篡改和隐私泄露等问题。最后,恶意的医疗机构和半可
小反刍兽疫(Peste des petits ruminants,PPR)俗称羊瘟,是由副黏病毒科(Paramyxoviridae)麻疹病毒属(Morbolivirus)的小反刍兽疫病毒(Peste des Petits Ruminants virus,PPRV)引起山羊、绵羊等小反刍动物的一种急性病毒性传染病。该病以急性胃炎、支气管肺炎、肠炎和怀孕母羊流产为主要特征。目前,该病在许多国家已经成为
在自然科学和社会科学中,存在很多划分问题。随着科技的发展,人们对划分的要求也在不断提升。仅凭经验和专业知识难以准确划分,而划分问题最主要的研究分支是聚类算法。它是把相近的样本归为一类,将差别大的元素划分在不同类。本文研究了各种经典的聚类算法,其中基于密度的带噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise,DB
全球变化导致的生物多样性丧失正威胁着生态系统的多种功能和服务,如碳氮循环、生产力及动植物的承载能力等。不同的物种多样性往往影响不同的生态系统进程,因此只关注物种数量的研究将低估多功能生态系统所需要的生物多样性水平。作为植物多样性重要组成部分,功能群多样性对于维持草地生态系统功能的稳定性、抗入侵性和缓冲气候变化的负面影响至关重要。迄今为止,从植物功能群角度研究草地生态系统碳氮储量对气候变化响应的研究
基于位置的服务(Location based service,LBS)在室内和室外都以它独特的魅力发挥着越来越重要的作用。在描述人类行为习惯时,人类的行走轨迹比单一位置更复杂。因此,基于位置和轨迹向用户呈现的基于跟踪的服务(Tracking based service,TBS)比LBS更精细,更加受到学者的青睐。随着科技的发展,越来越多的室内位置服务集中在智能终端上实现。以智能终端为平台的Wi-F