论文部分内容阅读
众包的概念被提出以来就日益受到学术界和工业界的广泛关注,随着互联网技术和移动智能设备的蓬勃发展,众包任务的执行也变得更加高效。但是,随着众包模式的广泛应用,隐私问题也随之而来,人们在执行众包任务时不希望透露过多的个人信息。概括来说,众包系统中隐私问题主要存在于以下两方面:一方面,在基于反向拍卖的激励机制中存在着披露众包工作者竞标信息的风险;另一方面,利用众包工作者提供的数据进行预测模型训练的阶段可能会泄露工作者的个人隐私。针对众包场景下的隐私泄露问题,本文的主要贡献如下:针对基于反向拍卖的激励机制中众包工作者竞标信息泄露问题,本文提出了一种基于差分隐私的激励机制,简称DP-mp RA。在工作者上传自己的竞标信息后,平台确定支付的价格集合,对于集合中的每一个价格,在满足数据聚集后误差阈值的限制条件下,选出获胜者集合。应用差分隐私的指数机制,以一定的概率选出最终获胜者集合。最后,根据每个工作者的评级进行差异化付款,进一步减少平台付款总额。经过理论证明,DP-mp RA满足差分隐私保护,同时也满足真实性和个人理性。通过实验仿真表明在保证相同隐私级别的前提下,DP-mp RA机制得到的平台付款总额低于现有考虑隐私保护的机制得到的平台付款总额。在利用工作者提供的隐私数据进行预测模型训练的阶段,如不加以隐私保护直接发布预测模型,攻击者可以推断出用于训练模型的原始数据,进而暴露工作者的隐私。本文提出了一种基于差分隐私的深度学习方案DNN-DP,该方案主要分为两个步骤:自适应噪声的确定以及加噪训练部分。首先,利用随机森林进行特征重要性评估,根据每个特征的重要性程度以及值域范围确定加到每个特征上的自适应噪声;在神经网络的第一层加自适应噪声,形成差分隐私仿射变换层,与后面的隐藏层共同构成深度神经网络进行预测模型的训练。通过在美国人口普查数据集上实验,表明本文提出的DNN-DP网络对分类数据集有较好的适应性,能产生较高的准确率。针对DNN-DP算法只影响边缘数据的问题,分类有上有下,互相抵消,因此对分类任务的准确性影响不大,但是对连续值的预测影响偏大。本文将差分隐私应用到神经网络内部的梯度上,提出了一种基于差分隐私的随机梯度下降法机制DP-SGD。该方案深入神经网络内部,噪声不再加到原始数据集上,而是先裁剪梯度,再将拉普拉斯噪声加到裁剪后的梯度上。最后,在连续性数据集上进行实验,验证了本章节提出的方案的有效性,比DNN-DP算法有更高的准确率。