众包偏好数据利用中的差分隐私保护机制研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xuefeng96ew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众包是人类计算的一种表现形式,它通过汇集和运用网络群体中个体的知识与智慧来解决计算机不擅长完成或无法独立完成的任务,目标是实现人类智能与机器智能的良好结合以获得更卓越的问题解决能力。在众包平台的数据管理过程中,通常要考虑到对众包任务完成情况的质量控制,“答案聚合”与“任务分配”是两个重要环节。前者是指在众包过程中,执行任务的个体会提供各自的答案,而答案的质量各有差异,众包平台需要高效准确地聚合这些答案以得到实用性的结果,投票机制是一类可借助的实现方式;后者是指在众包过程中,由于个体完成任务的水平与选择任务的偏好各有不同,众包平台需要将任务与个体做高效合理地匹配以获得更高质量的众包答案,推荐机制是一类可借助的实现方式。由于这两个环节都需要个体将偏好数据提供给众包平台,而偏好数据通常涉及到敏感信息,因而由众包平台直接对这些数据进行收集、分析与结果发布的过程会存在极大的隐私泄露风险。近年来,差分隐私保护理论及其本地化模型已为诸多数据处理场景提供了解决方案,但针对众包偏好数据利用场景的研究尚不完善。如何有效地保护个体偏好数据隐私并同时保持可接受的数据可用性,这对众包数据管理有着重要意义。本文主要从本地化差分隐私保护下的众包答案聚合与众包任务分配两个方面展开相关研究,面向单值、集合和排序等三种偏好数据类型提出了以下解决方案:1.针对隐私保护下的众包答案聚合场景以及加权投票博弈中单值偏好数据的特征,提出一种基于本地化差分隐私模型的单值聚合协议。以往研究是运用密码学技术如同态加密为加权投票增强安全性,这需要作出共谋假设以及设立额外可信的数据接管者。本文所提协议LDP-WeVote可使个体通过GRR机制或Laplace机制在本地分别扰动其投票权重数据和投票意向数据,而后由数据接管者根据扰动数据估计出投票结果,保护了两类单值偏好数据的数值隐私。我们在人造数据集上进行实验,观察了 LDP-WeVote协议的两种方案在中间计算结果的均方误差与最终投票结果的准确度等指标上的性能表现。结果表明,LDP-WeVote:GRR方案通常会优于LDP-WeVote:Lap方案。2.针对隐私保护下的众包答案聚合场景以及排序聚合中排序偏好数据的特征,提出一种基于本地化差分隐私模型的排序聚合协议。以往研究是基于中心化差分隐私模型提出解决方案,未考虑到不可信数据接管者的假设。本文所提协议LDP-KwikSort可使个体通过RR机制或Laplace机制在本地扰动其排序偏好数据,而后由数据接管者根据扰动数据估计出排序聚合结果,保护了偏好数据中成对选项的排序关系隐私。我们在真实数据集和基于Mallows模型生成的人造数据集上进行实验,观察了 LDP-KwikSort协议的两种方案与对比方案在聚合排序的平均Kendall tau距离以及部分方案在中间计算结果的错误率等指标上的性能表现。结果表明,LDP-KwikSort:RR方案通常会优于LDP-KwikSort:Lap方案,且二者在设定问询次数K=ε/1 合时的性能表现达到各自的近似最优,该理论结果得到了实验验证。3.针对隐私保护下的众包任务分配场景以及集合相似度量中集合偏好数据的特征,提出一种基于本地化差分隐私模型的集合相似度估算协议,可为基于推荐机制的众包任务分配提供辅助。以往研究是基于中心化或分布式差分隐私模型配合密码学技术提出解决方案,未考虑到不可信数据接管者的假设。本文所提协议LDP-MinHash可使个体通过指数机制或GRR机制在本地扰动其集合偏好数据并形成MinHash签名,而后由数据接管者根据扰动签名估算出集合的Jaccard相似度,保护了偏好数据中集合元素存在性的隐私。本文也对MH-JSE算法的内部随机性与差分隐私保护特性的关联作理论分析,提出用条件性的ε-集合操作差分隐私保护定义来刻画这种关联性。我们在真实数据集和人造数据集上进行实验,观察了 LDP-MinHash协议的两种方案与对比方案在所输出的Jaccard相似度的均方误差与F1度量、以及在中间计算结果的错误率等指标上的性能表现。结果表明,LDP-MinHash:GRR方案通常会优于LDP-MinHash:Exp方案。4.针对隐私保护下的众包任务分配场景以及排序相似度量中排序偏好数据的特征,提出一种基于本地化差分隐私模型的排序相似度估算协议,可为基于推荐机制的众包任务分配提供辅助。以往研究是基于噪声叠加原理提出解决方案,未基于差分隐私模型也未考虑到不可信数据接管者的假设。本文所提协议LDP-WTAHash可使个体通过Laplace机制或GRR机制在本地扰动其排序偏好数据并形成WTAHash签名,而后由数据接管者根据扰动签名估算出排序的pairwise-order相似度,保护了偏好数据中元素排序位置的隐私。我们在真实数据集和基于Mallows模型生成的人造数据集上进行实验,观察了 LDP-WTAHash协议的两种方案与对比方案在所输出的pairwise-order相似度的均方误差与F1度量、以及在中间计算结果的错误率等指标上的性能表现。结果表明,LDP-WTAHash:GRR方案通常会优于LDP-WTAHash:Lap方案。
其他文献
随着云计算(Cloud Computing)和群智感知(Crowdsensing)等新型网络环境的发展,这些新型架构已经成为承载各类应用的关键基础设施。然而,新型网络环境下数据安全与隐私威胁日
如今我们社会的现代化步伐越来越快速,这带动着城市的经济在迅猛的发展,也大幅度提升了我们国民整体的生活水平。随之改变的就是大城市的人口规模在不断的扩大,在特大城市流动人口急剧增加,导致了这些特大城市的交通等问题日益严峻,越来越多的人选择绿色出行的公共交通。做好公共交通的规划和决策,是解决交通拥堵问题的关键所在。在大数据时代,科学的利用云计算平台及相关技术,对公共交通数据进行分析和研判,做出合理的预测
Android移动操作系统由于其开源、用户广泛等特点,拥有庞大的应用生态环境,其中包含各种良性应用,以及恶意应用、重打包应用和仿冒应用。得益于广泛的前人研究,移动应用业界(下文简称“业界”)对各类恶意、重打包应用具备充分理解,衍生出了对应检测机制与防护措施。然而,近年来Android安全相关研究多聚焦于恶意、重打包应用,学术界对仿冒应用进行的研究较为匮乏,Android移动应用安全仍有隐患。目前,
肥胖症是当代社会最常见的营养失调引起的疾病之一。准确识别并给出食物中的脂肪含量和热量,可以有效控制肥胖症的患病率。而实现这一步的前提是能够对食物进行有效分类,但是手动分类食物已不再适用于当前快节奏的社会。食物类别众多,且许多食物类别之间相似性高,导致分类难度较大,可以将其归类为细粒度分类问题。在细粒度图像分类中,双线性卷积神经网络模型的计算成本和表达维度较高,若能在降低双线性结构计算成本的同时还能
软件定义网络(software-defined networking,SDN)是一种新型的网络结构,与传统网络不同的是SDN分离了网络中的控制平面与数据平面,其中控制平面由逻辑集中的控制器组成,数据
当今社会正处于高速发展大数据时代,亟需开发和设计容错性更高、安全性更强、更加可靠的计算机系统。计算机系统的可靠性和容错性很大程度取决于其互联网络的性能。图作为互
图像去雾作为图像复原的重要组成部分,在自动驾驶领域具有重要意义,吸引了大量学者的关注和研究,相关的研究成果层出不穷。本文主要关注基于图像复原的单幅图去雾方法,此类方
功能梯度材料(Functional graded materials,FGMs)是一种材料组份或/和微观结构随空间位置连续变化的非均匀材料,其具有降低应力/温度集中、控制变形和抵抗接触损伤等能力。
出行在现代人的日常生活中扮演重要作用,通过研究人们运动轨迹中的时空特征可挖掘出用户的出行规律,尤其是对于车辆轨迹的研究可以获得车辆在多个特定时间段内的移动特点等,与移动对象相对应的网络属性标签结合可推断出作息规律、兴趣爱好、生活习惯,路线偏好等重要信息,对于理解移动对象的行为模式、提供高精准度的智能推荐等都具有很高的应用价值。针对移动轨迹频繁模式挖掘相关问题,本课题研究了移动轨迹的语义化处理,语义
作为物联网技术的重要应用,车联网(VANET)受到了深入的研究和广泛的关注。其中节点之间的安全认证更是成为VANET安全研究的热点之一。口令认证密钥交换协议(PAKE)因其良好地机密性、数据完整性和认证服务,成为车联网安全认证中一种可行的认证机制。但是,传统PAKE协议是基于两个或多个用户间安全预共享的短口令来生成高熵的会话密钥。而批量生产的设备其初始化密码往往保持低熵,即拥有相同或相似的初始化设