面向本地差分隐私的数据可用性优化方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:tiantangdaoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和人工智能技术的发展,数据的重要性变得越来越凸显,并被经济学人杂志称为数字时代的石油。然而,随着各国政府日趋严格的隐私保护法案的出台,以及互联网用户隐私保护意识的觉醒,如何在保护隐私的前提下收集数据成为各大互联网公司的当务之急。在学术界和工业界的共同推动下,本地差分隐私技术逐渐成为用户隐私数据收集的黄金标准。目前谷歌、苹果和微软等互联网巨头已把本地差分隐私集成到产品中用于用户隐私数据的收集与分析。
  本地差分隐私的核心思想是用户在本地对数据进行随机扰动处理,并提供严格的隐私保护量化标准。然而,随机扰动的引入不可避免地影响了数据可用性。如何优化数据可用性成为各大互联网公司大规模部署本地差分隐私需要解决的首要问题。对本地差分隐私数据可用性的优化可以从两个维度展开:融合算法优化和隐私预算优化。其中,融合算法优化通过改进数据编解码方式以降低随机扰动对数据可用性的影响,隐私预算优化在融合算法给定时通过进一步优化隐私保护程度来降低扰动水平。根据数据拥有者与数据使用者之间的关系,隐私预算优化可以分为激励设计和协同优化两种方法。当数据拥有者不是使用者时,可以通过激励设计补偿数据拥有者隐私损失的方式使其选择更高的隐私预算;当数据拥有者同时也是使用者时,可以通过协同优化隐私预算与数据质量的方式来获得最优的数据可用性。近年来,研究人员对数据可用性优化方法研究取得了一定进展,然而现有工作仍然存在以下不足:a)现有高维数据融合算法数据可用性比较低,无法满足高维数据分析的需求;b)现有激励设计方法无法解决用户与融合中心之间信息不对称的问题,也无法满足实时数据融合的需求;c)协同优化是数据拥有者与使用者相同场景下数据可用性优化的关键技术,然而相关研究非常缺乏。本文结合国内外研究现状,针对本地差分隐私数据可用性优化研究中存在的不足进行了探索和改进,具体包括:
  1.研究了高精度的高维数据融合算法。边缘列联表是进行高维属性关联分析的基础,也是高维数据分析与融合的关键技术。因此,本文以边缘列联表发布为切入点,研究高维数据融合算法的优化问题。本文提出的CALM方法,通过一组称为视图的边缘列联表获取高维属性之间的关联关系,并使用一致化视图和最大熵优化理论来重构剩余边缘列联表。CALM方法的创新性在于,通过对多个误差源的定量分析,提出了一套选取最优视图的算法,极大降低了随机扰动对数据可用性的影响。CALM能高效处理高维的非二元属性,并把现有最好算法的融合精度提高了一到两个数量级。
  2.研究了基于静态激励的隐私预算优化问题。基于激励设计的隐私预算优化方法的核心思想是,通过补偿用户隐私损失的方式激励其使用更高的隐私预算,从而提升数据可用性。用户隐私损失决定于隐私预算和用户隐私偏好,而不同用户的隐私偏好往往不同。比如女性往往比男性更看重自己的年龄,病人往往比健康人更看重自己的位置。在激励设计过程中,融合中心很难得知不同用户的具体隐私偏好,造成了融合中心和用户之间的信息不对称问题。本文借助经济学中的契约理论设计了REAP机制来解决信息不对称问题。具体来说,假设融合中心拥有所有用户隐私偏好分布的先验知识,并为不同隐私偏好种类的用户设计不同契约,每个契约对应一个隐私预算及相应补偿。所有契约都广播给所有用户,每个用户可以选择使得自身效用最大的契约。最优契约设计的难点在于,如何保证用户真实地选择自身隐私偏好对应的契约,REAP通过求解满足激励兼容约束的优化问题解决了用户真实性选择的问题。
  3.研究了基于动态激励的隐私预算优化问题。实时数据融合在现实生活中广泛存在,比如公共健康监测机构可以通过实时收集用户体征信息对传染疾病进行监测与控制。实时数据融合需要周期性收集用户信息,因此需要保证用户的长期参与。现有静态激励机制无法满足实时数据融合的需求,因为很容易导致部分用户长期未被选中并退出系统。为了保证实时数据融合中用户的长期参与,本文设计了LEPA机制,使用在线算法来联合优化各个时隙之间的系统效用并保证所有用户都有一定概率被选中,以此防止用户中途退出。
  4.研究了基于协同优化的隐私预算优化问题。基于协同优化的方法适用于数据拥有者与使用者相同的场景,本文研究了该场景下的典型应用——数据库驱动认知无线电中的位置隐私保护与频谱分配问题。数据库驱动认知无线电技术是解决一级用户和二级用户之间相互干扰的有效手段。然而该技术的实现要求一级用户和二级用户直接或间接提供自身位置信息进行动态频谱分配。本文设计了一个保护隐私的效用最大化数据库访问协议UMax,通过位置隐私保护与频谱利用率之间的协同优化,允许双方用户选择最优隐私预算来最大化数据可用性,并提升频谱利用率。
其他文献
随着我国高速铁路以及城市轨道交通的迅速发展,为了满足现代列车高速运行,列车控制系统就需要一套低成本可靠的列车姿态测量系统。MEMS(微机电系统)IMU(惯性测量单元)具有低成本、低功耗等特点。当前,国内研制的高速列车ATO(自动驾驶)是在CTCS3级列控系统基础上实现的,目前已经装车并成功运营。ATO的实现主要是通过IMU测量列车的姿态信息推算出列车位置、速度等信息,与GNSS和雷达等传感器进行多
学位
随着无线通信技术的快速发展,人们对通信技术的可靠性和高效性提出了更高的要求,作为下一代移动通信的核心技术之一,非正交多址接入技术(Non-OrthogonalMultipleAccess,NOMA)引起了广大学者的注意。NOMA技术可以令接入用户共享时频资源从而大幅度提升了频谱效率,并通过对接入用户的功率分配可以保障用户间公平性。协作通信技术作为多天线技术的扩展技术,可以通过单天线设备间进行相互协
学位
股票时间序列是一种常见的非线性时间序列,现有的股票时间序列预测研究主要集中在对股票的多个技术指标中单一变量的预测研究方面,大多学者只用某种具体方法对股票技术指标之一的预测应用进行探索,并没有考虑到多个指标对单一输出的联合影响,更没用构建一套系统可行的股票价格时间序列预测建模体系。随着机器学习算法的发展,神经网络模型的广泛应用,针对股票时间序列数据所具有的高噪声、非线性、影响因素复杂等特点,本文分析
学位
改革开放以来,我国的城市建设工作取得了辉煌的成就,城市化水平从1978年的17.92%增长2017年的58.52%。作为城市化的重要载体,城市道路项目的建设也突飞猛进。但与此同时部分项目出现了控制不住投资、建设周期延长、建成后不能按时投入使用、投入使用后不能达到预期等问题等问题。如何提高城市道路项目的投资效率,规范政府投资行为是摆在各级城市政府面前的重要课题。本文从项目后评价的角度,针对城市道路项
[db:内容简介]
随着便携式电子设备的功能越来越丰富,芯片对电源的要求越来越高。LDO作为电源管理芯片,受益于其纹波小、噪声低、体积小以及无EMI等优点,得到广泛应用。在工艺上,相比于MOS工艺,双极工艺的驱动能力更好。因此,很多LDO采用双极工艺实现,尤其是大负载电流的。  本文采用2μm40V双极工艺,使用Cadence、Hspice等软件工具设计了一款大电流低压差线性稳压器芯片。主要研究内容如下:  1.针对
随着技术的发展,无人机正在侦察、监视、测绘、军事打击等领域大展拳脚,这对无人机的操作提出了更高要求。操作者能够在复杂环境下完成飞行控制的前提是其对飞行环境有着充分的认知,增强合成视景系统正是面对这样的需求而被提出的。复杂环境融合感知凸显是其核心功能。  本文对无人机增强合成视景系统进行了大量分析、设计和实现,主要研究了如下内容:  1、增强合成视景和视景仿真关键技术。分析了增强合成视景相关的数据库
过去几十年中,随着当代工业生产的技术创新与产业发展,离散事件系统得到了飞速发展,已被广泛应用于各种不同领域,例如制造系统,交通系统,数据库管理系统,通信协议,以及后勤(服务)系统等。这些复杂系统均可从离散的角度进行研究,因此,越来越多的研究学者和工程师都致力于离散事件系统的建模、分析以及控制。其中,Ramadge和Wonham(RW)首先提出了针对普遍离散事件系统的监督控制方法,其所得研究成果形成
近年来,网络化系统的研究受到了控制领域国内外学者的广泛关注。相比于传统的点对点控制系统,网络化系统具有布线少、可靠性高、成本低、易于扩展、维护和安装等优点,已成功应用于工业自动化、无人驾驶、智能电网等多个领域。在网络化系统中,由于用于各节点之间信息交换的通信网络是带宽有限的,被传输信号须先经过量化器的量化处理,这样不仅可以有效降低各节点之间的信号传输频率、节约宝贵的网络通信资源,而且还可以在很大程
离散事件系统(Discrete Event System)是一类由事件序列驱动的动态系统。随着现代工业化、智能化水平的日益提高,离散事件系统存在于许多重要的系统中。当离散事件系统规模日益增大时,任何一个故障事件都可能导致灾难的发生,诸如财产损失和人员伤亡,因此其故障诊断问题具有非常重要的学术价值和工程意义。然而离教事件系统中存在的“状态空间爆炸”问题,即系统的所有可达状态数量会随着系统规模的增长呈