论文部分内容阅读
随着智能设备的普及,越来越多有价值的数据产生了,对这些数据进行收集和分析具有重要意义。数据量的快速增长使得传统的集中式分析和计算框架受到极大挑战。分布式计算是一种有效的替代计算框架,其中多个服务器集群协作完成一个大规模数据分析任务,不仅缓解了集中式计算中的单点资源瓶颈问题,且具有更高的可扩展性和对故障的鲁棒性。近年来,这一计算框架在工业界和学术界均得到了广泛关注,各国也纷纷出台了相关政策以推动其发展。分布式计算所用数据包含了大量敏感信息,而现有系统存在保护力度不足的情况,导致当前敏感信息泄露形势十分严峻,亟需开展相应的隐私保护研究以减少隐私泄露。尽管分布式计算有较多应用场景,但其中多数可划分为统计信息计算和机器学习两类,且其他任务计算可通过整合上述两类计算方法完成,因此本文主要针对以上两类分布式计算任务设计隐私保护方法。现有研究工作存在一些不足和待解决的问题,主要有以下四个方面:1)尚缺乏提供可靠隐私保护的分布式最大值计算方法;2)在隐私保护的分布式平均值计算问题中,隐私损失的动态性和保护的异构性研究不足;3)保隐私分布式机器学习迭代过程中的隐私损失累积分析不足;4)针对保隐私分布式计算的性能优化,数据贡献者参与机制设计的研究有待加强。在综合国内外相关研究工作的基础上,本文对最大值计算、平均值计算和机器学习三个分布式计算场景展开了隐私保护研究,并探索了用户参与机制设计的计算性能优化方案。本文的主要工作和贡献总结如下:1.针对隐私保护的分布式最大值计算问题,首先证明了不存在同时保证最大值精确计算和差分隐私的保护算法。设计了一种差分隐私保护的分布式最大值计算算法,证明了该算法保证e-差分隐私,并给出了隐私保护程度的闭合表达式。另外,证明该算法实现了有限时间收敛,进一步给出了计算性能的量化表达。2.考虑隐私保护的分布式平均值计算问题,本文提出了一个异构隐私保护的两阶段分布式计算框架,其中用户获得了部分隐私控制权限,服务器在分布式迭代计算过程执行三种隐私保护机制,实现了不同的隐私特性和计算性能。基于Kullback-Leibler差分隐私,本文获得了两个阶段隐私保护程度的解析表达,并量化了第二阶段每一步迭代的保护程度。然后,分析了三种隐私保护机制的收敛保证和平均值计算精度。3.针对隐私保护的分布式机器学习问题,设计了基于交替方向乘数法的保隐私分布式机器学习框架,利用本地随机化方法和组合噪声添加策略实现了根据数据敏感程度和服务器可信程度为用户提供异构隐私保护。针对训练模型,分析了其正则化的泛化误差,给出了训练模型泛化误差与理想最优模型泛化误差之间偏差的上界。4.为解决保隐私分布式计算问题中隐私保护和计算性能间的矛盾,本文以平均值计算为例,利用激励思想设计了计算性能优化方法:用户侧非货币化的激励机制和服务器侧货币化的激励机制。在非货币化的激励机制中,得到了用户最优上报次数;在货币化的激励机制中,获得了用户的最优噪声方差和最优补偿组合。最后,进行了全文总结,并对未来的研究工作进行了展望。