论文部分内容阅读
众包是人类计算的一种表现形式,它通过汇集和运用网络群体中个体的知识与智慧来解决计算机不擅长完成或无法独立完成的任务,目标是实现人类智能与机器智能的良好结合以获得更卓越的问题解决能力。在众包平台的数据管理过程中,通常要考虑到对众包任务完成情况的质量控制,“答案聚合”与“任务分配”是两个重要环节。前者是指在众包过程中,执行任务的个体会提供各自的答案,而答案的质量各有差异,众包平台需要高效准确地聚合这些答案以得到实用性的结果,投票机制是一类可借助的实现方式;后者是指在众包过程中,由于个体完成任务的水平与选择任务的偏好各有不同,众包平台需要将任务与个体做高效合理地匹配以获得更高质量的众包答案,推荐机制是一类可借助的实现方式。由于这两个环节都需要个体将偏好数据提供给众包平台,而偏好数据通常涉及到敏感信息,因而由众包平台直接对这些数据进行收集、分析与结果发布的过程会存在极大的隐私泄露风险。近年来,差分隐私保护理论及其本地化模型已为诸多数据处理场景提供了解决方案,但针对众包偏好数据利用场景的研究尚不完善。如何有效地保护个体偏好数据隐私并同时保持可接受的数据可用性,这对众包数据管理有着重要意义。本文主要从本地化差分隐私保护下的众包答案聚合与众包任务分配两个方面展开相关研究,面向单值、集合和排序等三种偏好数据类型提出了以下解决方案:1.针对隐私保护下的众包答案聚合场景以及加权投票博弈中单值偏好数据的特征,提出一种基于本地化差分隐私模型的单值聚合协议。以往研究是运用密码学技术如同态加密为加权投票增强安全性,这需要作出共谋假设以及设立额外可信的数据接管者。本文所提协议LDP-WeVote可使个体通过GRR机制或Laplace机制在本地分别扰动其投票权重数据和投票意向数据,而后由数据接管者根据扰动数据估计出投票结果,保护了两类单值偏好数据的数值隐私。我们在人造数据集上进行实验,观察了 LDP-WeVote协议的两种方案在中间计算结果的均方误差与最终投票结果的准确度等指标上的性能表现。结果表明,LDP-WeVote:GRR方案通常会优于LDP-WeVote:Lap方案。2.针对隐私保护下的众包答案聚合场景以及排序聚合中排序偏好数据的特征,提出一种基于本地化差分隐私模型的排序聚合协议。以往研究是基于中心化差分隐私模型提出解决方案,未考虑到不可信数据接管者的假设。本文所提协议LDP-KwikSort可使个体通过RR机制或Laplace机制在本地扰动其排序偏好数据,而后由数据接管者根据扰动数据估计出排序聚合结果,保护了偏好数据中成对选项的排序关系隐私。我们在真实数据集和基于Mallows模型生成的人造数据集上进行实验,观察了 LDP-KwikSort协议的两种方案与对比方案在聚合排序的平均Kendall tau距离以及部分方案在中间计算结果的错误率等指标上的性能表现。结果表明,LDP-KwikSort:RR方案通常会优于LDP-KwikSort:Lap方案,且二者在设定问询次数K=ε/1 合时的性能表现达到各自的近似最优,该理论结果得到了实验验证。3.针对隐私保护下的众包任务分配场景以及集合相似度量中集合偏好数据的特征,提出一种基于本地化差分隐私模型的集合相似度估算协议,可为基于推荐机制的众包任务分配提供辅助。以往研究是基于中心化或分布式差分隐私模型配合密码学技术提出解决方案,未考虑到不可信数据接管者的假设。本文所提协议LDP-MinHash可使个体通过指数机制或GRR机制在本地扰动其集合偏好数据并形成MinHash签名,而后由数据接管者根据扰动签名估算出集合的Jaccard相似度,保护了偏好数据中集合元素存在性的隐私。本文也对MH-JSE算法的内部随机性与差分隐私保护特性的关联作理论分析,提出用条件性的ε-集合操作差分隐私保护定义来刻画这种关联性。我们在真实数据集和人造数据集上进行实验,观察了 LDP-MinHash协议的两种方案与对比方案在所输出的Jaccard相似度的均方误差与F1度量、以及在中间计算结果的错误率等指标上的性能表现。结果表明,LDP-MinHash:GRR方案通常会优于LDP-MinHash:Exp方案。4.针对隐私保护下的众包任务分配场景以及排序相似度量中排序偏好数据的特征,提出一种基于本地化差分隐私模型的排序相似度估算协议,可为基于推荐机制的众包任务分配提供辅助。以往研究是基于噪声叠加原理提出解决方案,未基于差分隐私模型也未考虑到不可信数据接管者的假设。本文所提协议LDP-WTAHash可使个体通过Laplace机制或GRR机制在本地扰动其排序偏好数据并形成WTAHash签名,而后由数据接管者根据扰动签名估算出排序的pairwise-order相似度,保护了偏好数据中元素排序位置的隐私。我们在真实数据集和基于Mallows模型生成的人造数据集上进行实验,观察了 LDP-WTAHash协议的两种方案与对比方案在所输出的pairwise-order相似度的均方误差与F1度量、以及在中间计算结果的错误率等指标上的性能表现。结果表明,LDP-WTAHash:GRR方案通常会优于LDP-WTAHash:Lap方案。