差分隐私保护分类及推荐算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:commander_ocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今是数据爆炸的时代,网络技术、传感技术、存储技术等方面的迅猛发展使得海量数据的采集与获取前所未有的容易,极大地促进了数据挖掘技术的发展。研究机构、商业组织,甚至个人都可以轻易地利用数据挖掘技术发现数据中的知识。然而,数据的不当使用往往会带来严重的隐私泄露问题,引起法律争端与道德争议,同时也使数据的共享受到了限制,阻碍了数据挖掘技术的发展。近年来,数据挖掘中的隐私保护问题成为一个研究热点。隐私保护数据挖掘的核心任务在于设计数据挖掘模型,使其能够在保证数据隐私的前提下,不至于过多地牺牲模型的准确率,即寻求算法隐私性与准确性的平衡。本文对现有隐私保护技术进行了综述及归纳分析。介绍了主流的隐私保护技术,包括基于数据加密的技术、基于匿名化的技术,和基于数据扰动的技术,并针对其实现手段和主要特点对这几种技术做了对比分析。特别地,针对传统数据挖掘应用中的隐私泄露问题,本文引入了先进的差分隐私保护模型。差分隐私提供了不依赖于攻击者背景知识的鲁棒设计,并且提供了严格的数学证明,能够有效保证数据挖掘过程中的数据隐私。在本文涉及的分类及推荐算法中,研究了差分隐私应用于相应数据挖掘应用的实现机制和设计重点,以及算法实现中的隐私预算计算和分配问题,以保证提出的算法能在满足差分隐私的同时,有效保护算法准确率,实现了在隐私保护的情况下进行准确数据挖掘的目的。本文的主要工作可以归纳为以下几个方面:(1)基于决策树及集成策略的差分隐私保护分类算法。决策树分类是数据挖掘领域最重要的分类算法之一,在构建决策树的过程中,通过统计评估对分支结构和叶节点进行推导。本文针对决策树构建过程中的隐私泄露问题,分析树模型中的计数查询,并阐明直接依据拉普拉斯机制实现差分隐私的缺点。在满足差分隐私的前提下,提出利用最大类别标记衡量分支属性重要性的方法,进而大大节约了隐私预算。此外,针对分支属性评估过程中的查询密集问题以及隐私预算的累加问题,设计了基于分支属性个数的隐私保护预算分配策略,以平衡信噪比。针对隐私单树模型的不稳定问题,通过集成策略进一步对模型进行提升。通过实验验证了提出的算法能够在满足差分隐私的前提下,保证分类的准确率。(2)基于直推支持向量机的差分隐私保护分类算法。针对标记数据不足的场景进行隐私保护分类算法设计,同时依据标记数据和非标记数据进行训练。不同于基于扰动的隐私保护支持向量机分类,本文提出的算法将隐私保护的重点放在非标记数据分类结果的保护上,而非分类模型的训练过程。依据直推向量机理论,设计算法以构建近似正确标记池,从而有穷化分类结果的选择范围。为实现差分隐私,衡量近似正确标记池中的候选标记序列与权威标记之间的一致性,并依据指数机制随机采样分类结果。在近似正确的要求下,能够保证最终分类结果的可用性。通过实验验证了提出的算法能够对非标记数据进行准确的分类。(3)基于自动编码机的差分隐私保护推荐算法。推荐系统依据历史评分数据,对用户偏好进行预测。在大部分的应用中,通过将随机扰动引入目标函数再优化的方式,实现用户数据的隐私保护。然而,由于评分数据比较稀疏,而且用户评分向量的粒度很大,在扰动尺度估计中会引发过大的敏感性,因此扰动后往往难以充分保证模型的准确率。本文基于深度学习中的自动编码机理论,对稀疏用户评分向量进行重构。在模型训练中,通过最小化所有用户重构评分与原始评分之间的误差,实现协同过滤推荐的目的。考虑到模型计算中的隐私保护问题,引入高斯机制对参数求解过程中的梯度向量进行扰动,实现差分隐私保护的推荐算法。通过实验验证了提出的算法能够在较高准确率下完成推荐任务。
其他文献
GPRS外卖订餐打印系统分为终端设备和云服务器两部分,本文主要研究终端机设备部分。终端设备主要负责打印订单和实时向服务器上报工作状态。系统控制器选用CORTEX-M3内核的ST
通过对选择的50余款国内外图像、图形分析处理软件、图像测量软件和测量工具系统的比较研究,根据文件鉴定中印刷文件鉴定的实践需求,通过有效的整合,建立了一套适用于印刷文
目的(1)编写适用于高血压患者的饮食干预短信并评价其适用效果;(2)以界首市农村高血压患者为调查对象,了解患者饮食相关信念、目标行为现状及影响因素;(3)拟研制优化高血压患
金属薄膜具有较好的强度、硬度等力学性能被广泛应用于大规模集成电路及微机电等领域,近年来有研究发现金属、陶瓷类的硬质薄膜也具备一定的阻尼能力,但对于此类薄膜的阻尼特
介绍了偏转线圈水平绕线机的结构特点,选用Master- K200H型PLC作为控制器,对其动作过程进行顺序控制,提高了偏转线圈水平绕线机的工作效率和可靠性,降低了设备的故障率,具有一定的实用价值.
利用惩罚最大F检验(PMFT)方法并结合详尽的台站历史沿革信息对我国701个气象观测台站年平均风速资料进行了均一性检验,结果表明该检验方法能够应用于对年平均风速资料进行均
<正>1案情简介农民黎某、江某等(原告)于2009春在某种业公司(被告)购买了标称为"淮稻5号"的水稻种子5000kg分销给三个县8个乡镇300多户农民种植,面积66.7 hm2。至抽穗后,农民
大学生是具有高等教育文化的特殊群体,他们的思想觉悟较高,对于新事物、新思想有着较强的接受和领悟能力,因此大学生成为了走在网络消费前列的新群体。
珠三角地区是中国最早发展起来的世界制造基地,这里需要大量新型的财务管理人才。以广州为中心的珠三角地区散布有17所独立本科院校,在校全日制本科生超过二十万,而这其中,财
<正>建设中国特色现代国有企业制度,是我国国有企业改革的方向。完善和发展中国特色现代国有企业制度,提升国有企业核心竞争力,离不开国有企业人事制度的改革。2009年12月,国