论文部分内容阅读
面对多源数据中存在的数据冲突,真值发现任务能够估计信息源可靠程度,并发现数据真值,在群智感知和众包等领域具有广泛应用。然而用户参与真值发现任务时直接上传包含个人敏感信息的原始数据会导致个人隐私泄露。因此,如何在有效完成真值发现任务的同时能够保护用户个人隐私信息,这成为真值发现任务当前亟待解决的一个关键问题。本地化差分隐私技术(LDP)不需要使用可信的第三方服务器,通过让用户在上传数据之前本地扰动数据,使得只有用户自身能访问原始数据,从根本上防止了用户的个人隐私泄露。因此,本文将LDP技术应用于真值发现任务以保护用户个人隐私信息。现有的满足LDP的真值发现工作只适用于对单一数据进行独立的隐私保护,而不适用于在空间真值发现任务中同时进行位置扰动和数据扰动,以及在动态真值发现任务中连续进行数据扰动。因此,本文设计并实现了满足LDP的空间真值发现算法和动态真值发现算法。针对隐私保护的空间真值发现任务,本文提出了满足LDP的基于最优位置采样的空间真值发现算法。在该算法中,为了解决位置数量较多导致扰动误差较大的问题,本文提出了基于信息熵衡量的最优位置采样方法;为了解决位置扰动和数据扰动独立进行导致数据效用低的问题,本文提出了关联感知的位置与数据联合扰动方法。在真实数据集上进行实验测试的结果表明,本文提出的满足LDP的空间真值发现算法与现有工作相比,显著提高了 MAE改变量指标,验证了所提算法的优越性。针对隐私保护的动态真值发现任务,本文提出了满足LDP的基于投票机制的动态真值发现算法。在该算法中,为了解决时间点数量较多导致扰动误差较大的问题,本文提出了基于投票机制的时间点采样方法;为了解决只使用当前时间点数据估计用户权重导致准确度低的问题,本文提出了基于增量更新的用户权重估计方法。在真实数据集上进行实验测试的结果表明,本文提出的满足LDP的动态真值发现算法与现有工作相比,显著提高了 MAE值指标,验证了所提算法的优越性。