面向非独立同分布数据的加权联邦蒸馏算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yangor2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联邦学习允许参与者在不共享数据的前提下协同训练模型,由于其很好地保护了用户数据隐私并打破数据孤岛,逐渐成为了国内外研究人员的关注热点。联邦集成蒸馏(Federated Distillation and Fusion,Fed DF)算法是联邦学习中一种现有的高效中心聚合算法,该算法以外源数据为蒸馏数据,对初步参数平均聚合得到的模型再蒸馏来提高模型的预测准确度。但在实际场景中外源数据难以获取,且在训练数据非独立同分布的情况下,各客户端训练所得模型差异较大,而该算法采用直接平均每个客户端模型的输出的方式获取教师软标签,造成教师软标签自身精度丢失,导致训练模型的精度提升有限。为解决以上问题,研究主要贡献如下:首先,为提高教师网络输出精度,在Fed DF算法的基础上,进一步提出了加权联邦集成蒸馏(Weighted Federated Ensemble Distillation,WFed ED)算法,该算法在客户端引入一个小型的判别网络,通过训练使其输出蒸馏数据在本地数据中对应的概率密度,并以此概率密度进行加权平均,获取准确度更高的教师软标签,来提升蒸馏效率和模型精度。其次,由于外源数据在实际场景中难以获取,在WFed ED算法中引入生成式对抗网络(Generative Adversarial Network,GAN)扩展得到WFed ED-WG算法,WFed ED-WG算法通过在客户端添加一个小型的GAN,将其中的生成器进行分布式训练再全局聚合来模拟全局数据分布以代替外源数据,同时针对分布式训练环境下GAN的不稳定性,提出了多种训练策略来保证训练过程中生成器生成的蒸馏数据的可用性。最后,实验采用CIFAR10和MNIST两种不同的数据集,并使用不同的模型,通过多种对比实验来验证算法效果。实验结果显示WFed ED算法在多种实验环境下均优于Fed DF算法和Federated Averaging(Fed Avg)算法。此外,实验还将教师网络输出准确率进行对比,验证了算法理论的有效性。
其他文献
随着大数据时代的来临,数据爆炸式的增长,数据的安全共享与访问控制是保障数据安全隐私的重要一环。而伴随着用户对数据访问需求多样化,需要更精细粒度的访问控制,用于解决复杂业务场景中出现的问题。基于属性的访问控制(Attribute-Based Access Control,ABAC)通过将主体、客体、访问策略以属性的方式进行组织,可以匹配复杂的应用场景。虽然采用密文策略属性基加密机制(Cipherte
学位
随着互联网技术的发展以及网络电视平台的兴起,用户的需求也不再是简单的观看视频,还想在观看的同时寻求他人的见解或表达自己的观点。与传统评论区不同,视频实时评论即“弹幕”有着实时性强,互动性强,包含用户情感等特点。视频实时评论生成可以应用于提高视频或直播间人气,产生实际的经济效益,加强视频与用户的交互,提高用户的观影体验。视频实时评论自动生成任务是一个多模态任务,在生成实时评论时需要结合视频的图像信息
学位
同态加密算法是可保证数据安全,支持数据加密状态下进行明文等效计算的算法,在安全计算领域应用广泛。基于大量复杂多项式乘法实现的同态加密算法,存在计算复杂度高、资源消耗大的问题。最新加速方案利用离散伽罗瓦变换算法提升多项式乘法性能,能够降低算法复杂度,实现了图形处理单元(Graphic Processing Unit,GPU)上的简单并行。但该方案未充分考虑密文多项式特性以及GPU内存访问、线程调度特
学位
随着信息技术的快速发展,金融行业与互联网的联系日益紧密,使得金融领域产生了海量的非结构化文本。关系抽取技术能有效提取金融文本中实体对的关系信息,是构建金融知识图谱的重要环节。有监督关系抽取方法依赖于大量人工标注的数据,而在金融领域由于标注问题缺乏相关数据集,因此研究无监督关系抽取方法对于构建金融知识图谱具有重要意义。而金融文本中存在句式结构复杂、领域词汇多、实体名称长等特点,使得面向金融文本的关系
学位
人脸识别系统能够正常工作的前提是构建好系统用户的底片库,在人脸识别系统工作过程中,先要从底片库中加载人脸特征,为识别提供比对的样本。底片库作为人脸识别系统的基础,对整个系统的识别准确率有很大的影响。当前构建人脸识别系统底片库大多使用人工筛选的方法,耗时耗力,且存在误筛和漏筛的现象。针对这种情况,有必要实现一种自动构建人脸识别系统底片库的方案。底片库构建技术分为三个模块:人脸图像检测、人脸图像质量评
学位
随着医疗大数据的快速发展,可解释机器学习模型被广泛用于医学领域。医学学习模型的公平性问题将影响针对不同患者群体的危险因素分析和疾病预测结果,已引起业界高度关注。然而,如何构建能够有效划分患者群体的“公平”模型,并据此给出对临床诊疗真实有效的危险因素与预测结果间关系仍是医学学习模型的痛点和难点。通过对医学学习模型公平性问题的深入分析,发现了由混杂因素带来的机器学习公平性问题。针对这一问题,提出了基于
学位
核磁共振测井技术是一门崭新的、在二十世纪发展迅速的测井分析技术,它不仅可以对岩石总孔隙度进行计算,还可以定量地计算有效孔隙度、束缚水孔隙度以及渗透率等数据,在储层流体识别、孔隙结构识别与复杂地层油气藏评价等方面具有十分显著的优势,已成为石油勘探测井方面不可或缺的一个重要技术。基于对核磁共振测井相关知识的研究,改进了奇异值反演算法,与联合迭代反演算法和阻尼因子反演算法对比,通过正演模型验证了算法的有
学位
如何从海量的互联网数据中提取出实体关系是信息抽取亟待解决的问题之一。关系抽取包括句内关系抽取和文档级别关系抽取。在文档级别的关系抽取任务中,输入文本序列长且由多句话组成,同时实体往往位于不同句子中,因此需要多句子共同推理才能得出实体对之间的关系。相比句内关系抽取,文档级别关系抽取面临诸多挑战,如文本特征提取不充分、跨句推理能力不足等。对此,研发了融合多维度与上下文特征的关系抽取系统。在该系统中,针
学位
中国式农村教育现代化发展道路需要有自身的理论建构。中西比较维度下对西方农村教育现代化道路与理论的批判与超越成为建构中国化理论的起点,这一维度要求中国式农村教育现代化理论要打破西方意识形态偏见,探索不同于西方的本土现代化模式;以世界先进水平为标准定位教育现代化,积极推进教育强国建设;破除路径唯一性幻象,探索传统与现代共存、乡土化与城市化并进的新型农村教育现代化之路。历史变迁维度下对中国式农村教育现代
期刊
冠心病是最常见的心血管疾病,给居民带来严重的健康问题和经济负担。冠状动脉分段标记可用于冠心病的病理分析,对冠状动脉血管造影图像中不同类别的血管段应用不同权重,计算解剖结构分支的统计数据。冠状动脉分段标记得越精确和细致,越有助于自动量化冠心病的复杂程度,加快医生分析工作的流程时间。目前,大多数基于深度学习的分段标记方法能够自动对冠状动脉完成分段,但是存在分段类别过少的问题,无法识别不常见的分支。冠状
学位