论文部分内容阅读
目前,联合深度学习已广泛应用于各个领域,例如图形图像分类、自动驾驶和语音识别等。然而,在对大规模数据进行训练学习过程中,存在泄露用户敏感数据的风险,而且运行设备的计算效率不足以满足训练需求。因此,提升隐私保护能力和提升计算效率是目前训练学习中亟待解决的两个问题。本论文基于联合学习环境下,考虑保护用户隐私的高效安全数据聚合方法研究。通过对已有的基于联合学习下保护隐私的数据聚合方案的了解及深入学习,明确联合学习的模型框架,分析总结了当下联合学习所面临的各种挑战,包括统计异质性、隐私保护、通信开销。通过研究发现,目前在联合学习下保护隐私的方案很少考虑某些用户(称为低质量数据用户)共享的数据质量低以及用户设备资源不同的根本问题。显然,在联合训练过程中,低质量数据可能会降低训练效率和精确性,甚至导致模型没有实际可用价值。所以,在设计联合学习方案时,除了考虑用户隐私,还应该考虑用户设备与用户数据的异质性,这是隐私与训练准确性及效率之间的一个权衡。针对目前联合学习所面临的问题,本文考虑将密码学知识用于联合深度学习环境,以达到保护用户数据隐私的目标。基于云环境的联合学习模型提出了两个保护用户隐私的方案:SAHPP与SAHD。其中,SAHPP考虑用户数据异质性,为用户计算“数据质量”分数,以保证全局聚合值主要基于对训练有较高贡献的用户数据。而SAHD方案作为增强方案,进一步优化了SAHPP,改进了密钥协商机制,同时考虑用户设备的异质性,提出用户“可靠性”参数,提高了模型训练的准确性及效率。此外,从安全性以及训练精准性、开销等性能方面分析了两个模型的安全性以及实用性。通过实验仿真与现有方案对比,两个方案有着较高的精确性和效率以及较低的通信、存储和计算开销。尤其增强方案SAHPP中,不仅考虑了异质性数据的情况,还考虑有较低设备资源的用户参与训练,并且利用多项式密钥协商机制,在达到一定效率的同时能够很好的保护用户隐私。