基于生成对抗网络的联邦学习非独立同分布数据问题研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yuanyuanzhujinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着各行各业数据平台的建设,大数据驱动的机器学习技术推动现实社会逐步走向信息化和智能化,如语音识别、路径导航、人脸识别等。随着人工智能的应用领域的不断扩宽,深度学习技术逐渐发展和完善,传统数据集中式的机器学习引发社会对个人隐私数据安全的担忧。由于用户隐私数据泄露以及行业竞争私自使用隐私数据等问题频发,政府相继出台法律规定限制隐私数据的流通与共享,造成企业间“数据孤岛”现象,协同隐私数据联合AI建模成为挑战。联邦学习作为一种新型隐私保护的分布式机器学习范式,能够在协同大规模设备共同训练机器学习模型的同时保障用户数据安全,使用户从参与联邦学习训练中获益。本文主要针对联邦学习中数据非独立同分布问题进行研究。联邦学习通过协调不同用户或企业的设备共同训练,设备间数据分布及数据集规模的差异会导致本地建模的参数优化后具有偏差,经由联邦学习协作训练后难以满足全局优化目标,导致模型收敛速度以及模型精确度显著下降。针对非独立同分布数据问题,本文提出一种基于条件生成对抗网络的联邦学习数据增强方法,以提高非独立同分布数据情况下的联邦学习算法性能。本文主要工作如下:(1)通过划分数据集构造模拟非独立同分布数据,通过对比算法在不同数据划分情况下的模型性能,验证了联邦学习算法在非独立同分布数据下存在性能下降及难以收敛到全局最优目标的现象。(2)提出了一种新颖的联邦学习数据增强方法,根据用户本地数据分布作为条件信息,在本地通过条件生成对抗网络模型指导生成数据,减轻用户间的数据分布差异,通过差分隐私加噪的方式保障生成对抗网络训练数据不被泄露。通过在MNIST、CIFAR-10数据集上进行实验验证该方法在非独立同分布数据下能实现稳定的性能提升。(3)设计并实现了基于隐私保护的移动应用个性化推荐算法。提出的应用推荐算法能在保护用户数据不离开本地的情况下学习到全局用户行为特征的共享表示,同时能针对不同用户设备间的非独立同分布行为数据进行个性化建模。采集数据构建真实非独立同分布应用序列数据集Rec4APP,实验验证,该算法在Rec4APP数据集上相较于传统基于独立同分布的算法具有更高的模型预测精度。
其他文献
数据不平衡是医学领域数据集的常见挑战之一,在医疗不平衡数据集中包含大量正常样本(多数类样本)和相对较少的患者样本(少数类样本)。现有的机器学习分类模型在训练数据集不平衡的情况下会产生偏向于多数类的分类偏差,导致对少数类样本的错误判定,这对于患者来说是一种极其错误的释放,可能会导致严重的后果。在现有的医疗不平衡数据分类方法中,数据层面的方法主要包含欠采样和过采样。其中,过采样的一个关键挑战是其利用统
学位
在互联网时代下,社交网络飞速发展,人们习惯于在各类社交网络平台中获取信息、结交好友、创作内容。但当前中心化的平台架构导致用户失去部分主动权:(1)平台全权决定用户获取信息的内容和范围,导致用户无法自主选择;(2)用户在结交好友时将隐私信息发送到平台,但无法确保隐私数据的安全存储和使用;(3)用户在社交网络中创作内容的数字版权,尤其是图像版权权益得不到有效保障。这些问题的根源在于中心化社交网络平台权
学位
软件信息站点为软件开发人员提供了一个分享和交流他们知识的平台,在软件开发迭代的生命周期中起着重要作用。随着信息站点的不断演化,软件对象快速增长,标签被广泛应用于帮助开发者在软件信息站点上的各种操作。由于标签是由开发者自由选择的,开发者的知识背景、表达偏好、对软件对象的理解等方面的差异都可能会导致标签不一致或不合适。大量不合适的标签不仅影响了对软件信息站点内容的组织和分类,还导致了标签数量膨胀以及标
学位
我国土地广袤,幅员辽阔,有着最广泛独特的山川地理环境,造就了各具特色的城市图景风貌。当下城市“建设性”破坏持续蔓延,导致自然山水格局割裂,景观面貌愈发趋同,城市发展呼吁守护地方记忆、延续历史文脉。深入挖掘和汲取历史城市营建经验与智慧,传承城市地域特色和文化内涵,成为当前城市规划与建设的重要议题。城市历史景观是传统地域文化的重要组成部分,重新审视城市历史景观的资源及价值,不仅是一项推进城市历史遗产保
学位
随着视频数据的爆炸式增长,视频摘要任务便成为了学术界和工业界一个热门的研究问题。该任务的目标是从原始视频中选择出最能够代表原始视频的帧或者镜头的集合,用于组成紧凑的摘要视频。因此,视频摘要任务的核心在于关键帧或者镜头的选择。根据摘要视频的表现形式不同,可以将视频摘要算法分为关键帧集合的静态视频摘要和关键镜头集合的动态视频摘要。本文针对动态视频摘要,主要围绕提升摘要视频质量展开研究,主要工作包括以下
学位
在前端项目正式部署前,开发人员为了提高程序运行效率、降低网络传输开销、避免原始代码暴露在客户端应用程序中,会在不改变运行结果的前提下,对项目中的Java Script代码进行混淆和压缩处理。但对安全分析人员来说,通过逆向工程对源代码进行审查是非常有必要的,而混淆压缩的代码大大增加了审查的难度。因此需要一种变量名恢复方法帮助安全分析人员快速理解、分析代码执行逻辑。理论上来说,无法从代码本身携带的信息
学位
肺结节分类与分割在肺结节临床诊断中起到关键作用,它们属于计算机辅助诊断平台中的核心问题。近年来,由于人工智能的快速发展,大量的基于深度学习的肺结节分类与分割算法被人提出。然而,现有的这些分类与分割算法都不能有效地解决肺结节组织固有的数据不确定性问题(病变可能清晰可见,然而仅从CT图像可能无法获得有关它是否是癌组织的信息)。因此,本文围绕肺结节组织固有的数据不确定性问题并结合深度学习技术分别对肺结节
学位
肺癌是全世界发病率和死亡率最高的癌症之一。在利用计算机对肺癌进行智能诊断的过程中,肺结节的检测、分割和分类都是不可或缺的先后步骤。近年来,卷积神经网络算法在计算机视觉领域取得了突破性成就,同时在医学影像智能诊断任务上获得了优异的成绩。二维卷积神经网络可以有效挖掘肺结节平面的特征信息,却忽视了CT影像数据中肺结节三维空间中的上下文信息。针对以上问题,本文的研究方法基于三维卷积神经网络可以充分利用CT
学位
随着移动设备和人工智能应用数量的爆炸性增长,人们的生活已经与移动多媒体技术变得密不可分。其中,语音输入因其便利性,在日常社交中变得越来越重要。因此网络中也随之出现了大量基于深度学习的自动语音分析(Automatic Speech Analysis,ASA)任务,由于计算和存储资源有限,移动设备逐渐无法处理用户产生的这些计算密集型任务,通常会寻求云计算的帮助。然而,这些ASA任务通常具有时延敏感性,
学位
人工智能,近年来受到广泛的研究关注,并且在众多领域都得到实际运用。计算机视觉作为人工智能研究的一个子领域,目的在于实现计算机对人类智能处理视觉信息的模拟,以实现对于海量视频数据的高效智能处理。人作为社会活动中的主体大量出现在视频数据中,因此对人类行为的理解成为了视频分析技术的研究热点之一。由于人类行为复杂多变,细粒度地对这些行为进行研究,可以引导识别算法对其产生更鲁棒的理解,从而更好地运用于实际。
学位