论文部分内容阅读
随着信息技术的不断发展,数据变得越来越重要,而其中轨迹数据更是扮演着举足轻重的角色。人走路产生轨迹,各种交通工具也产生轨迹。随之而来的就是大量轨迹数据的交互和处理。例如,用户上传自身的轨迹数据给地图服务提供商来查询附近的酒店;政府部门收集市区内的车辆行驶轨迹来规划道路设计,防止交通堵塞。然而,由于轨迹数据与个人绑定,暴露它会造成严重的隐私问题。攻击者可以根据用户的轨迹数据推断出一些敏感的信息(如家庭住址,工作单位和兴趣爱好等)。因此,设计方法来保护轨迹数据交互过程中的用户隐私迫在眉睫。论文着重考虑两种场景下的隐私保护问题:基于位置服务的个体用户轨迹数据隐私保护和基于数据聚合的多用户轨迹数据隐私保护,并提出了满足差分隐私的解决方案。在第一个场景中,个体用户上传自身的轨迹数据来请求服务。随着位置信息服务变得越来越流行,这一场景也越来越普遍,其所造成的隐私问题也日益严重。为了解决这一问题,地理不可区分性这一来自于差分隐私的概念在最近被提了出来。这一隐私模型要求在原始位置上附加一个噪音,来保证多个临近的原始位置会以近似的概率产生相同的输出位置。与密码学和k匿名等传统方法相比,它兼有可被证明的隐私强度和轻量级这两大优点。然而,这一方法原先被设计用来保护单个点。当直接使用它来保护多个点时,总的隐私消耗会随着被保护点的数量的增加而快速累积。这意味着用户请求位置信息服务的次数大大受限,否则用户的隐私会被破坏。为了解决这一问题,论文改进了原始的地理不可区分性机制,提出了 PTM机制(即预测和测试机制)。它通过消耗少量的隐私来构造一个真实位置的近似位置,从而达到减少隐私消耗的目的。它可以在保证数据可用性的前提下显著减少隐私消耗。为了获得近似位置,论文关注于三种主要场景并分别设计了相应的预测方法。为了测试机制的性能,论文在两个数据集上进行了实验。实验结果表明论文的机制在减少隐私消耗和保持数据可用性之间取得了很好的平衡。在第二个场景中,数据收集者收集大量的轨迹数据以便进行分析,从而引发隐私问题。一些工作提出了基于差分隐私的解决方案,但是这些方案需要假设数据收集者是可信的,这一要求在现实生活中难以满足。为了解决这一问题,论文使用了最新的局部差分隐私这一技术。局部差分隐私要求用户在上传数据之前先做扰动,服务端只能够接触扰动过的数据,因而它不需要假设数据收集者是可信的。基于局部差分隐私,论文设计了基本的扰动器来保护用户的隐私。为了处理大量的轨迹数据,论文引入了 N-Gram模型来帮助优化算法的效率。这一模型不仅可以减少需要传输和处理的数据量,还能够减少总体的隐私消耗。论文还设计了剪枝策略来控制需要处理的Gram的数量,以及采样策略来进一步减少总体的隐私消耗。最后,由于轨迹数据可被看成是一种特殊的序列数据集,论文发现所设计的方法在某些条件下可以无缝地拓展到序列数据集隐私保护。实验证明论文的方法能够保证隐私强度和数据可用性。