回归算法中的差分隐私保护方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:jlsonger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年中,企业、组织和政府机构收集的数字信息已经产生了大量的数据集,并且这些数据收集的速度在过去几年中急剧增加。通常,数据收集者或拥有者会对这些数据进行发布或者作进一步的分析。但是,大多数收集的数据集包含私人的敏感信息。即便数据收集者或拥有者可以应用几种简单的匿名化技术来处理这些敏感信息,但是这些个人信息仍然很有可能被泄露。因此,隐私保护已经变成一个亟待解决的紧迫问题。在保护个人隐私数据的方法中,差分隐私作为一种新提出的隐私定义,在最大背景知识的攻击下仍然能够避免隐私泄露,并且不会造成数据过多的失真。由于差分隐私保护技术可以提供这种严格的隐私保护效果,已经得到国内外研究人员的研究和认可。其中将差分隐私和回归分析相结合是一种重要的研究方向,然而目前的相关工作相对较少,并且仍然存在敏感度大、精度低等问题。为此,本文利用回归分析固有的特性,从两种不同的回归分析算法出发分别解决上述问题,主要的研究工作及成果如下:(1)对于基于线性回归分析的差分隐私保护算法精度低的问题,本文基于遗传算法的特性提出了一种改进的差分隐私线性回归方法。具体来说,该方法采用遗传算法自然选择的进化思想,在挑选出最优的线性回归模型参数的过程中引入指数机制,这使得算法的整个过程满足?-差分隐私保护。同时,方法利用遗传算法只在选择步骤过程中接触到敏感数据集的特性,合理分配隐私预算,提高结果的可用性。(2)对于基于决策树回归分析的差分隐私保护算法敏感度大的问题。本文在ExtraTrees模型的基础上提出了一种差分隐私保护的算法DiffETs。具体来说,在构建每一棵决策树的流程中,我们使用拉普拉斯机制和指数机制来保证满足差分隐私。其中在选择决策树内部节点的时候使用指数机制来选择最佳分裂特征,而在叶子节点上,使用拉普拉斯机制来添加噪声。对于本文提出的算法,我们分别应用在决策树回归和决策树分类中,提高了算法的准确率。本文提出的两种差分隐私保护回归分析算法,不仅从理论方面对算法的隐私性进行了分析,证实了算法满足?-差分隐私,而且还在UCI公开的数据集上进行了实验比较和分析。实验结果说明了本文提出的差分保护回归分析算法能够在保证隐私保护的基础上相比于已有的差分隐私保护回归分析算法可以获得更好的准确度,具有更好的实际应用价值。
其他文献
通过问卷方式对西安交大一附院图书馆的读者满意度和需求进行调查,从读者对图书馆现状的满意度、读者利用网络信息资源的情况、新型服务项目的开展以及对图书馆的意见和建议等
慢性非传染性疾病是常见的影响人民健康的慢性病,它的病因主要是不良的生活习惯与环境污染,高发于中老年.开展住院患者的疾病分类统计分析,有利于卫生行政部门更好地开展预防
生物反馈疗法[1]是通过现代电子仪器将患者体内的生理功能摘记下来,并同时转换为声、光、屏幕图像或数字等直观的反馈信号,患者根据不断显现的反馈信号学习调节自己的生理功
本文简要介绍了一种高性能保温隔热窗系统的技术研究和开发,本系统具有保温隔热性能优异、隔热设计配置合理、拥有多项专利技术、工艺先进的特点,因此具有高的性价比,应用于
高温静电除尘技术能实现高温气体高效除尘,利于气体的显热、潜热及其中有用资源的有效利用。因而分析了温度、气氛、放电极形式及材料、粉尘特性对高温静电除尘的影响。分析
重氮化合物通常作为金属卡宾的前体被应用于催化反应中,而芳香重氮盐的代表性反应包括Sandmeyer反应,Balz-Schiemann反应等,它们在有机合成中得到了十分广泛的应用。我们近年
会议
目的 研究血清同型半胱氨酸(Hcy)水平在脑梗死急性期及颈动脉粥样硬化斑块形成中的作用。方法 选取200例脑梗死患者为研究对象,根据患者病情分为急性发作组(A组)120例,恢复期
随着世界经济的发展,各个行业之间的竞争日益加剧,产品成本的压力在不断显现。在这种环境下和未来的压力下,我们的制造企业正面临着巨大的竞争压力和考验,面临的复杂问题也会
目的:探讨半夏润燥解毒方治疗气阴亏虚型干燥综合征(SS)的疗效、安全性及对血清白介素-17(IL-17)、CXC趋化因子配体13(CXCL13)的影响。方法:依据纳排标准将38例SS患者随机分为试验组与对照组,每组19例,同时纳入健康对照组16人,对照组服用硫酸羟氯喹片与白芍总苷胶囊,试验组在对照组的基础上服用半夏润燥解毒方,疗程1个月,监测治疗前后SS报告指数(ESSPRI)、SS疾病活动指数(