【摘 要】
:
针对人工智能实际应用环境中的数据孤岛效应和数据隐私保护,联邦学习框架应运而生。本文研究了基于卷积神经网络的联邦学习算法,主要包括:(a)针对个性化,研究了联邦学习的框架下多个客户端联合训练,最终为每个客户端学习其对应的个性化模型;(b)针对通信瓶颈,研究了联邦学习中的通信压缩。具体的主要研究内容如下:(1)本文提出了基于子类个性化的联邦学习算法(Subclass Personalized Fede
论文部分内容阅读
针对人工智能实际应用环境中的数据孤岛效应和数据隐私保护,联邦学习框架应运而生。本文研究了基于卷积神经网络的联邦学习算法,主要包括:(a)针对个性化,研究了联邦学习的框架下多个客户端联合训练,最终为每个客户端学习其对应的个性化模型;(b)针对通信瓶颈,研究了联邦学习中的通信压缩。具体的主要研究内容如下:(1)本文提出了基于子类个性化的联邦学习算法(Subclass Personalized Federated Learning,SPFL)。该算法包括了客户端和服务器端的个性化算法:(a)在客户端,本文融合了元学习算法MAML,对初始化模型进行学习,实现了更加个性化的学习算法;(b)在服务器端,针对需向客户端下发多个个性化模型的情况,通过基于模型学习中的梯度相似性,有效建模客户端之间的相关性,提出了个性化模型的融合策略。实验结果表明,当客户端间数据呈I.I.D.分布时,该算法在MNIST,CIFAR10,EMNIST,CIFAR100四个数据集的平均准确率分别为98.82%,75.76%,90.58%,37.06%。当客户端间数据呈N.I.I.D.分布时,在以上四个数据集上的平均准确率分别为98.41%,68.91%,88.76%,30.96%。SPFL算法不仅保证了当客户端间数据呈I.I.D.分布时性能,而且当客户端间数据呈N.I.I.D.分布时,准确率远高于Fed Update和Per Fed Avg等联邦学习中的其他个性化算法。(2)本文提出了基于参数量化和参数分解的联邦学习通信压缩算法。(a)在参数量化压缩算法中,基于自然量化压缩算子,本文提出一种自适应偏移压缩算子,通过引入量化偏移,在额外增加1-2 bit开销(总体开销增加11.1~22.2%)的情况下,有效减少了量化误差。(b)在参数分解压缩算法中,为进一步增大压缩的比率,基于可分离卷积的思想,本文对包含着主要参数的卷积层和全连接层分别提出了缩减参数的分解模型。通过最小化重建误差损失,利用共轭梯度算法求解分解参数。本文所提出的参数量化和参数分解算法可以方便地的结合现有的联邦学习算法,包括本文在(1)中所提出的SPFL算法。实验结果表明,本文所提出的参数量化和参数分解压缩算法能有效减少联邦学习中,用于通信的参数总数和单个参数的表示长度。在保证对每个客户端学习存在性能增益的情况下,该通信压缩算法的最大参数压缩比可达6倍。
其他文献
生成对抗网络依靠其非监督的学习方式和强大的生成能力,自2014年提出以来就受到了人们的重点关注。GAN在不断提出新模型的同时也遇到了许多新的问题,其中远距离依赖关系拟合能力差,图像全局特征不一致及因此导致的生成图片质量差等问题不断出现,限制了GAN的进一步应用。本文围绕基于通道特征学习的生成对抗网络图像生成方法展开研究,提出了一种有效利用通道特征提高生成图片质量的方法。通过跟踪国内外相关领域的最新
自2012年Google正式提出知识图谱概念以来,知识图谱已经在智能问答系统、推荐系统、垂直搜索服务、辅助决策系统等多个领域展现出丰富的实际应用价值,受到工业界和学术界的广泛关注。但目前知识图谱依旧面临着人工构建成本高、数据稀疏、信息不完善等缺陷,极大限制了知识图谱的应用能力。目前,如何对知识图谱进行高效的表示与推理依旧是研究工作的重点和难点。本论文针对现有研究方法对知识图谱图结构信息利用效率低、
数据集成是信息检索领域的一个关键性任务。其中,实体统一任务是数据集成的一个关键步骤,也称为实体匹配或重复记录检测。实体统一任务指的是,在不同来源的数据中,找出指向同一现实世界中的实体的数据记录。早期的研究主要是基于字符串距离的算法。这种无监督的方法缺乏有效性和泛化性,因为预定义的匹配阈值通常随着数据集的变化而变化,需要人工为不同的数据集设定阈值,缺乏泛化性。另一条研究分支是基于众包的实体统一算法。
随着大数据时代的到来,指数级增长的数据量使得人们淹没在数据文海之中,如何能在浩如烟海的文本之中提炼所需要的信息变得格外重要。自动文本摘要是指利用概率统计、机器学习、深度学习、神经网络等,从文本中提取主旨信息,挖掘关键信息,将文本的主要信息凝缩成简洁表示的摘要。目前在新闻标题生成、文本检索、知识问答等方面得到广泛应用。序列到序列模型是自然语言处理中用途最广泛的模型,一般由编码器和解码器两大部分构成。
近些年来,许多高维数据在不同的领域中产生。这些高维数据不易用传统方法处理,但迫切需要从这些数据中分析潜在的信息和模式。但是现在的机器学习模型更多地采用矩阵形式,这样会使得我们处理数据需要对数据特征进行向量化处理。对于多元之间的的信息融合和共享,采用矩阵运算表示会很复杂,而张量多线性表示其本身是更加自然的描述。描述张量多线性操作的图示,即张量网络由于其表达的便捷性,现在越来越流行。因为很多低秩的张量
任务规划技术在现实生活中应用十分广泛。任务规划算法通常在给定有限的子任务空间下进行子任务安排,进而得到一条可以满足业务需求的任务流程。目前,基于开放性空间的任务规划求解问题成为研究热点。但这类方法因开放性解空间的原因,对于交互性和动态调整性提出了需求,用户需要在任务规划阶段交互式参与解决方案的调整。为此,论文以代码模块组合任务规划为典型场景,将代码模块组合任务规划分解为代码搜索与代码组合两部分,解
随着信息科学技术的发展,图像已经深入人们生活的方方面面,图像中的内容也越来越复杂。多标签分类比单标签分类更能准确的描述图像中的内容,因而得到广大研究者的关注,并成功应用在智能管理相册、自动驾驶、广告推荐和视频监控等领域中。为了进一步提高多标签图像分类的效果,本文提出了基于语义空间注意力机制的多标签图像分类模型和基于语义通道注意力机制的高分辨率分类模型,具体的研究内容如下:(1)提出了基于语义空间注
强化学习作为机器学习领域的重要分支之一,是一种通过在环境中不断试错从而得到最优策略的方法。而得益于深度学习近年来的发展,结合强化学习与深度学习所形成的深度强化学习成为了一个热门的研究领域,并在许多问题上取得了突破性的进展。在深度强化学习算法中,异策略强化学习算法凭借其对样本数据极高的利用率在部分问题上具有显著优势。但是由于真实环境中的控制问题往往极其复杂,获得经验样本的成本非常昂贵,而且现有强化学
近年来,人工智能领域蓬勃发展,同时也存在一些问题和挑战。其中,数据孤岛,用户隐私保护导致的数据割裂问题尤为受到人们的重视。在各行业中,不同机构,同一机构不同部门的数据通常存在屏障,不能被直接共享或交换,表现为数据以“孤岛”的形式存在,这使得大数据驱动的人工智能技术难以充分发挥价值。此外,随着国内外数据隐私保护法规的不断完善,对企业在用户数据的收集、存储和使用环节中提出了高的用户隐私保护要求,这提高
伴随着无线设备的快速发展,现如今越来越多的车辆都配备有大量的无线设备,使利用大规模的车载网络成为了可能,因此,工业界和学术界对车载自组织网络(VANETs)产生了极大地兴趣。车载网络通常会因为车辆的行驶速度快,网络节点间的拓扑结构变化频繁,以及车载无线设备带宽低等问题,导致网络质量不佳。本文采取的解决方案是,利用路侧停放的车辆,将路侧停车加入车辆网络,利用停放的车辆中的无线设备进行网络的数据分发,