基于全局正则化的分簇个性化拆分学习方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sakurzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,数据发挥着越来越重要的作用。分布式协作机器学习允许多个客户端设备参与训练,同时一定程度上保证了数据隐私,因此迅速兴起。联邦学习和拆分学习是其两种主流实现方式。拆分学习与联邦学习相比可以更好地缓解客户端计算资源匮乏的情况,且具有更好的隐私性。用户参与拆分学习的目的是要通过参与全局的训练提高预测精度,然而参与训练的客户端设备数据的非独立同分布问题可能会对训练模型产生负面影响,导致客户端参与训练后的预测精度提升有限。为了解决数据的非独立同分布问题,引入了针对拆分学习的个性化技术,对于不同的客户端设备,提供更适合的方式进行训练。本文对参与训练的所有客户端设备进行分簇,设置一个全局模型和多个局部个性化模型,提出了基于全局正则化的个性化拆分学习;为了解决基于全局正则化的个性化拆分学习采用人为分簇存在的主观性强的问题,进一步引入聚类算法进行分簇,提出基于聚类固定分簇的个性化拆分学习,并探究正则化参数的影响,进一步提高本地预测精度;为了解决基于聚类固定分簇的个性化拆分学习存在的隐私性较差的问题,提出基于聚类动态分簇的个性化拆分学习。实验表明,基于全局正则化的个性化拆分学习与传统的拆分学习相比,有1.5%左右的预测性能提升;而基于聚类固定分簇的个性化拆分学习进一步采用聚类算法分簇,将预测性能进一步提高3%左右;基于聚类动态分簇的个性化拆分学习的预测精度总体不如固定分簇方案,但在分簇时有更好的隐私性。
其他文献
近年来,以自然语言处理为基础的问答系统蓬勃发展并成为各行业热门,其中,教育背景下的课程知识问答系统可将学生问题从时间空间限制中解放出来,提高学习效率。但当问答系统服务对象为小学生时,针对其思维灵活和问题多样等特点,如何提高系统问答质量与效率是研究的重点。针对用户提出的需求,明确小学生课程问答系统目标,以生成式和检索式结合设计了系统总体框架,并针对问答生成模块进行详细分析,重点阐述了改进生成式模型和
学位
新闻事件检测和跟踪旨在将报道相同内容的新闻文章聚类为一个事件并构建事件之间的逻辑关系。传统的主题检测和跟踪、聚类算法只注重将相关的文档聚类为一个主题,但是存在聚类粒度较为粗糙或者需要事先确定聚类结果个数的问题。最新的研究提出基于社区检测算法的双层聚类来识别新闻流中的事件并采用树形结构对事件进行跟踪,由于它们不能较好的捕捉到金融新闻术语表达的多样性导致事件检测以及事件跟踪效果不佳。针对以上问题提出的
学位
电力基础建设作为各个行业发展的基石,对经济发展至关重要。然而,电力工程往往具有繁杂的子工序,这给管理带来了重大挑战。电力工程工序优化问题本质上属于多目标优化问题范畴,由于多个目标之间存在相互制约的关系,从而导致传统方法无法适用于这类问题。因此,需要一种有效的多目标优化方法为电力工程编制合理的工序进度计划,实现工程效益最大化。遗传算法广泛应用于解决各个领域的多目标优化问题,其中,快速非支配排序遗传算
学位
肺部疾病是世界范围内的主要死亡原因之一。对于大多数肺部疾病,早期的筛查和诊断对病情的控制和治疗具有重要作用。目前临床上对肺部疾病的诊断主要依靠胸部X射线和CT图像等手段,然而对于医疗资源较为稀缺的地区,影像检查存在检测难、费用高、成像质量低等问题。此外,很多肺部疾病早期在影像上并无明显表现,这些都可能造成病情的延误。针对上述问题,提出使用血常规等临床检验指标对肺部疾病进行诊断研究。临床检验指标相较
学位
点云补全旨在将残缺的稀疏点云还原成完整的密集点云。基于孪生网络的方法通过特征匹配学习完整点云的先验信息,但是其使用的基于多层感知机的编码器提取点云特征时性能不佳。而基于变换网络的方法虽然采用点变换与点集抽象等手段解决该问题,但它没有利用完整点云结构的先验知识。此外,现有点云补全方法忽视了保持全局结构的重要性,这导致部分样本在细化时会逐渐偏离原有的形状。为了更好地利用完整点云中的先验信息,同时避免补
学位
乡村要振兴,教育需先行。乡村振兴战略是新时代党中央为破解乡村发展困境、全面提升乡村治理体系和治理能力现代化的重要举措。农村教育在乡村振兴战略的推进中迎来新发展机遇的同时,也面临着教育价值取向功利化、农村义务教育学校布局困境、人才培养目标定位矛盾、城乡二元结构对立等问题,出现了农村教育的“内卷化”现象。树立城乡教育一体化优质均衡发展理念、构建内外协同的农村教育制度体系、形成多元参与的保障共同体、培育
期刊
“认识秒”是一个托底课程,在此之前,学生已经学习了“时”和“分”两个常见的时间单位,不仅如此,学生还能认读和书写一般精确到分的时间时刻。“秒”是继“时”和“分”后出现的一个较小的时间单位,由于在日常计时中存在感很低,而且时间单位较为抽象,缺少直观的事物来刻画和形容,不像长度单位、面积单位那样可以借助许多事物来直观演示,且1秒的时间过于短暂,小学生很难敏锐地感受其长短。因此,本课着力解决这一难点,通
期刊
密码管理机制是一种利用数据库批量存储和管理个人密码的技术手段。为保证安全,用户的密码数据须进行加密处理后存入数据库。然而在实践中,用户往往倾向于使用简单重复的低熵密码作为密钥,这使得传统的密码管理机制极易受到合法编码问题的影响。同时,撞库攻击的存在也极大地威胁了密码数据库的安全,此种攻击利用数据库内泄露的信息作为参照,使得攻击的成功概率极高,极易造成大规模的隐私泄露。针对上述问题,提出了一种基于蜜
学位
近年来,随着互联网的发展,人们对基于位置服务的精度要求越来越高,由于WiFi设备的低成本和广泛部署,基于WiFi指纹的室内定位技术成为研究热点。但是大多基于WiFi指纹的室内定位技术存在两个问题:一是定位精度易受接收信号指示强度(Received Signal Strength Indication,RSSI)波动的影响,导致定位精度不高;二是设备多样性使得在线定位阶段的RSSI数据和离线训练阶段
学位
冠状动脉各解剖节段的准确识别对于心血管类疾病的诊断是非常重要的。目前的计算机辅助诊断系统通常不考虑报告冠状动脉疾病的病理位置,这就需要放射科医生手动进行相关检查和报告病变区域。实现冠状动脉的自动分段标记,将提高医生疾病诊断的效率,也有利于计算机辅助诊断技术的进一步发展。冠状动脉分段标记主要存在的问题是个体间的差异性大。很多现有的冠状动脉的自动分段方法存在识别的分支数量较少、侧支准确率较低、网络结构
学位