论文部分内容阅读
大数据时代,各种信息采集工具将每个人都数据化,在浩瀚的信息网络中,人的一些行为和特征可以用数据表示。以数据为基础产生的各种应用在给人们带来更好服务体验的同时,也存在严重的隐私泄露隐患。层出不穷的隐私泄露案例不断刺激着人们的神经,事实上隐私安全问题已成为社会发展的隐患。因此在进行数据挖掘时,应该不断加强对个人隐私的保护,只有这样才能促进大数据应用健康发展。隐私保护计算能够实现隐私与效益之间的平衡,化解数据价值挖掘与隐私保护之间的矛盾。本文分析对比了常用的隐私保护计算方法,在此基础上引出并介绍了差分隐私技术。差分隐私是一个严谨的隐私保护理论框架,它对攻击者的背景知识做出了最大化的假设,并且能够提供可证明、可量化的隐私保护机制,因而成为当前隐私保护技术研究的热点。本文针对分类和推荐任务中存在的隐私保护问题,从隐私保护要点、实现机制和隐私预算分配策略等方面研究了如何将差分隐私技术应用于相应的算法。对于分类问题,本文将差分隐私保护技术应用于随机森林算法,目的是实现分类准确率与数据隐私性的有效平衡。对于推荐算法,本文在提出一种融合显隐式反馈协同过滤算法的基础上,将差分隐私技术引入该算法,目的是在保证数据隐私的前提下实现有效推荐。全文的主要工作总结如下:(1)针对分类算法中的隐私安全问题,本文首先分析了决策树的隐私保护要点,在此基础上提出一种基于差分隐私保护的随机森林算法。该算法从数据集的相关性和数据量的大小两个维度出发设计了一种隐私预算分配方案,该方案能够实现信噪比的动态平衡,并且可以节约隐私预算。在构造隐私保护决策树的过程中,为了减少噪声量,该算法将分支节点的信息增益作为质量评分函数,采用指数机制实现隐私保护;对于叶节点,采用Laplace机制进行扰动以实现隐私保护。为了提高算法的准确率和稳定性,该算法采用Bagging策略构造多棵隐私保护决策树并进行集成。最后给出了算法的隐私性分析,并且通过实验证明了该算法能够在满足差分隐私保护的前提下,保证分类的准确率。(2)针对推荐算法,本文提出一种融合显式反馈和隐式反馈的协同过滤算法。该算法分为两个阶段,第一阶段为隐式反馈数据处理阶段,该阶段首先通过数据转化和采集负样本构建隐式反馈训练数据集,在此基础上根据训练模型求解得到用户和物品的隐式特征向量。第二阶段为融合显隐式反馈数据处理阶段,该阶段首先构建显式反馈训练数据,然后将第一阶段得到的隐式特征向量融入到显式数据求解模型中,训练获得模型参数。实验表明该算法能够有效提高推荐准确率。(3)针对推荐算法中的隐私安全问题,本文将差分隐私保护技术与工作2中提出的算法相结合,通过在求解过程中添加均值扰动和梯度扰动来使算法满足差分隐私保护。实验结果表明,该算法能以损失较小的推荐精度为代价实现差分隐私保护。