论文部分内容阅读
随着大数据和人工智能技术的发展,数据的重要性变得越来越凸显,并被经济学人杂志称为数字时代的石油。然而,随着各国政府日趋严格的隐私保护法案的出台,以及互联网用户隐私保护意识的觉醒,如何在保护隐私的前提下收集数据成为各大互联网公司的当务之急。在学术界和工业界的共同推动下,本地差分隐私技术逐渐成为用户隐私数据收集的黄金标准。目前谷歌、苹果和微软等互联网巨头已把本地差分隐私集成到产品中用于用户隐私数据的收集与分析。
本地差分隐私的核心思想是用户在本地对数据进行随机扰动处理,并提供严格的隐私保护量化标准。然而,随机扰动的引入不可避免地影响了数据可用性。如何优化数据可用性成为各大互联网公司大规模部署本地差分隐私需要解决的首要问题。对本地差分隐私数据可用性的优化可以从两个维度展开:融合算法优化和隐私预算优化。其中,融合算法优化通过改进数据编解码方式以降低随机扰动对数据可用性的影响,隐私预算优化在融合算法给定时通过进一步优化隐私保护程度来降低扰动水平。根据数据拥有者与数据使用者之间的关系,隐私预算优化可以分为激励设计和协同优化两种方法。当数据拥有者不是使用者时,可以通过激励设计补偿数据拥有者隐私损失的方式使其选择更高的隐私预算;当数据拥有者同时也是使用者时,可以通过协同优化隐私预算与数据质量的方式来获得最优的数据可用性。近年来,研究人员对数据可用性优化方法研究取得了一定进展,然而现有工作仍然存在以下不足:a)现有高维数据融合算法数据可用性比较低,无法满足高维数据分析的需求;b)现有激励设计方法无法解决用户与融合中心之间信息不对称的问题,也无法满足实时数据融合的需求;c)协同优化是数据拥有者与使用者相同场景下数据可用性优化的关键技术,然而相关研究非常缺乏。本文结合国内外研究现状,针对本地差分隐私数据可用性优化研究中存在的不足进行了探索和改进,具体包括:
1.研究了高精度的高维数据融合算法。边缘列联表是进行高维属性关联分析的基础,也是高维数据分析与融合的关键技术。因此,本文以边缘列联表发布为切入点,研究高维数据融合算法的优化问题。本文提出的CALM方法,通过一组称为视图的边缘列联表获取高维属性之间的关联关系,并使用一致化视图和最大熵优化理论来重构剩余边缘列联表。CALM方法的创新性在于,通过对多个误差源的定量分析,提出了一套选取最优视图的算法,极大降低了随机扰动对数据可用性的影响。CALM能高效处理高维的非二元属性,并把现有最好算法的融合精度提高了一到两个数量级。
2.研究了基于静态激励的隐私预算优化问题。基于激励设计的隐私预算优化方法的核心思想是,通过补偿用户隐私损失的方式激励其使用更高的隐私预算,从而提升数据可用性。用户隐私损失决定于隐私预算和用户隐私偏好,而不同用户的隐私偏好往往不同。比如女性往往比男性更看重自己的年龄,病人往往比健康人更看重自己的位置。在激励设计过程中,融合中心很难得知不同用户的具体隐私偏好,造成了融合中心和用户之间的信息不对称问题。本文借助经济学中的契约理论设计了REAP机制来解决信息不对称问题。具体来说,假设融合中心拥有所有用户隐私偏好分布的先验知识,并为不同隐私偏好种类的用户设计不同契约,每个契约对应一个隐私预算及相应补偿。所有契约都广播给所有用户,每个用户可以选择使得自身效用最大的契约。最优契约设计的难点在于,如何保证用户真实地选择自身隐私偏好对应的契约,REAP通过求解满足激励兼容约束的优化问题解决了用户真实性选择的问题。
3.研究了基于动态激励的隐私预算优化问题。实时数据融合在现实生活中广泛存在,比如公共健康监测机构可以通过实时收集用户体征信息对传染疾病进行监测与控制。实时数据融合需要周期性收集用户信息,因此需要保证用户的长期参与。现有静态激励机制无法满足实时数据融合的需求,因为很容易导致部分用户长期未被选中并退出系统。为了保证实时数据融合中用户的长期参与,本文设计了LEPA机制,使用在线算法来联合优化各个时隙之间的系统效用并保证所有用户都有一定概率被选中,以此防止用户中途退出。
4.研究了基于协同优化的隐私预算优化问题。基于协同优化的方法适用于数据拥有者与使用者相同的场景,本文研究了该场景下的典型应用——数据库驱动认知无线电中的位置隐私保护与频谱分配问题。数据库驱动认知无线电技术是解决一级用户和二级用户之间相互干扰的有效手段。然而该技术的实现要求一级用户和二级用户直接或间接提供自身位置信息进行动态频谱分配。本文设计了一个保护隐私的效用最大化数据库访问协议UMax,通过位置隐私保护与频谱利用率之间的协同优化,允许双方用户选择最优隐私预算来最大化数据可用性,并提升频谱利用率。
本地差分隐私的核心思想是用户在本地对数据进行随机扰动处理,并提供严格的隐私保护量化标准。然而,随机扰动的引入不可避免地影响了数据可用性。如何优化数据可用性成为各大互联网公司大规模部署本地差分隐私需要解决的首要问题。对本地差分隐私数据可用性的优化可以从两个维度展开:融合算法优化和隐私预算优化。其中,融合算法优化通过改进数据编解码方式以降低随机扰动对数据可用性的影响,隐私预算优化在融合算法给定时通过进一步优化隐私保护程度来降低扰动水平。根据数据拥有者与数据使用者之间的关系,隐私预算优化可以分为激励设计和协同优化两种方法。当数据拥有者不是使用者时,可以通过激励设计补偿数据拥有者隐私损失的方式使其选择更高的隐私预算;当数据拥有者同时也是使用者时,可以通过协同优化隐私预算与数据质量的方式来获得最优的数据可用性。近年来,研究人员对数据可用性优化方法研究取得了一定进展,然而现有工作仍然存在以下不足:a)现有高维数据融合算法数据可用性比较低,无法满足高维数据分析的需求;b)现有激励设计方法无法解决用户与融合中心之间信息不对称的问题,也无法满足实时数据融合的需求;c)协同优化是数据拥有者与使用者相同场景下数据可用性优化的关键技术,然而相关研究非常缺乏。本文结合国内外研究现状,针对本地差分隐私数据可用性优化研究中存在的不足进行了探索和改进,具体包括:
1.研究了高精度的高维数据融合算法。边缘列联表是进行高维属性关联分析的基础,也是高维数据分析与融合的关键技术。因此,本文以边缘列联表发布为切入点,研究高维数据融合算法的优化问题。本文提出的CALM方法,通过一组称为视图的边缘列联表获取高维属性之间的关联关系,并使用一致化视图和最大熵优化理论来重构剩余边缘列联表。CALM方法的创新性在于,通过对多个误差源的定量分析,提出了一套选取最优视图的算法,极大降低了随机扰动对数据可用性的影响。CALM能高效处理高维的非二元属性,并把现有最好算法的融合精度提高了一到两个数量级。
2.研究了基于静态激励的隐私预算优化问题。基于激励设计的隐私预算优化方法的核心思想是,通过补偿用户隐私损失的方式激励其使用更高的隐私预算,从而提升数据可用性。用户隐私损失决定于隐私预算和用户隐私偏好,而不同用户的隐私偏好往往不同。比如女性往往比男性更看重自己的年龄,病人往往比健康人更看重自己的位置。在激励设计过程中,融合中心很难得知不同用户的具体隐私偏好,造成了融合中心和用户之间的信息不对称问题。本文借助经济学中的契约理论设计了REAP机制来解决信息不对称问题。具体来说,假设融合中心拥有所有用户隐私偏好分布的先验知识,并为不同隐私偏好种类的用户设计不同契约,每个契约对应一个隐私预算及相应补偿。所有契约都广播给所有用户,每个用户可以选择使得自身效用最大的契约。最优契约设计的难点在于,如何保证用户真实地选择自身隐私偏好对应的契约,REAP通过求解满足激励兼容约束的优化问题解决了用户真实性选择的问题。
3.研究了基于动态激励的隐私预算优化问题。实时数据融合在现实生活中广泛存在,比如公共健康监测机构可以通过实时收集用户体征信息对传染疾病进行监测与控制。实时数据融合需要周期性收集用户信息,因此需要保证用户的长期参与。现有静态激励机制无法满足实时数据融合的需求,因为很容易导致部分用户长期未被选中并退出系统。为了保证实时数据融合中用户的长期参与,本文设计了LEPA机制,使用在线算法来联合优化各个时隙之间的系统效用并保证所有用户都有一定概率被选中,以此防止用户中途退出。
4.研究了基于协同优化的隐私预算优化问题。基于协同优化的方法适用于数据拥有者与使用者相同的场景,本文研究了该场景下的典型应用——数据库驱动认知无线电中的位置隐私保护与频谱分配问题。数据库驱动认知无线电技术是解决一级用户和二级用户之间相互干扰的有效手段。然而该技术的实现要求一级用户和二级用户直接或间接提供自身位置信息进行动态频谱分配。本文设计了一个保护隐私的效用最大化数据库访问协议UMax,通过位置隐私保护与频谱利用率之间的协同优化,允许双方用户选择最优隐私预算来最大化数据可用性,并提升频谱利用率。