基于纵向联邦学习的推荐系统技术研究

来源 :浙江大学 | 被引量 : 1次 | 上传用户:jtyz888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统的发展离不开大规模高质量的数据,多家相关企业往往会以数据直接共享的方式提升推荐系统效果。但随着用户数据隐私意识的提高和数据保护法规的完善,多方参与的推荐系统的数据隐私安全问题受到越来越多的关注。本文针对多方参与的推荐系统的数据隐私保护存在的问题,利用联邦学习技术提出了一种高效的基于纵向联邦学习的推荐系统,在提高多方参与的推荐系统数据隐私安全性的同时也极大的降低了引入隐私保护技术的代价。本文首先从多方参与的推荐系统的数据共享方式着手,对参与方数据隐私安全问题进行了建模分析,进而引入纵向联邦学习技术来提高多方参与的推荐系统的数据隐私安全性。然后又对上述方法的运行效率进行了研究,提出了基本异步化纵向联邦学习(Base-Asynchronous Vertical Federated Learning,Base-AVFL)方法。本文分析了Base-AVFL 方法产生模型效果下降原因,又进一步的提出了基于预测因子补偿的异步纵向联邦学习(Predictor Compensation Asynchronous Vertical Federated Learning,PC-AVFL)方法,该方法能够在保证数据安全性和推荐精度不损失的前提下缩短训练时间。针对系统中存在的通信效率低下的问题,本文利用中间数据的近似稀疏性,提出了双端稀疏压缩(Double End Sparse Com-pression,DESC)方法对参与者间通信数据进行压缩。结合上述两个方法,本文最终提出了 PC-AVFL-DESC方法下的基于纵向联邦学习的推荐系统。本文又以中心化推荐系统为基础,对基于纵向联邦学习的推荐系统进行了重新设计,并对上述系统进行了测试平台环境的构建和软件工程的实现。最后,本文在两个公开的推荐数据集和三种基础的推荐模型上进行了对比实验。实验结果表明,本文提出的PC-AVFL-DESC方法下的基于纵向联邦学习的推荐系统在保证了参与方数据安全的同时,在MSE、AUC与F1评价下其与中心化方法相比,最大的效果影响仅为1.98%。而与基于同步纵向联邦学习(Syn-chronous Vertical Federation Learning,SVFL)的方法相比,本文提出的PC-AVFL-DESC方法将系统的平均收敛时间缩短了35.11%,通信量减少了76.14%。以上实验结果充分证明了本文工作的实用性与有效性。
其他文献
无限带宽(InfiniBand)网络凭借高带宽、低延迟、易扩展的优势被广泛应用于数据密集型和计算密集型场景,加速了数据中心与高性能计算的发展。无限带宽网络集中式的管理架构要求高层管理软件实体通过特定的管理消息向网络节点传达管理指令。各网络节点通过管理代理这一底层软件实体响应网络管理行为,实现稳定、可控的网络环境。因此,本文基于CPU+FPGA组成的异构多处理器片上系统,提出了一种应用于嵌入式主机通
人体行为识别技术在智慧城市安防、视频检索、人机交互、无人便利超市等领域中有诸多应用,其重要性日益突出。如何有效地对视频序列信息进行时空建模是人体行为识别任务中的一个关键点。许多研究为了更好地对视频序列进行时空建模,采取三维卷积并结合光流等其他运动补充信息的方法,但忽略了所带来的网络难以优化、网络规模与计算量增加的问题。此外,在面临不同行为实例的持续时间长短不一的问题时,许多研究简单地堆叠局部感受野
[db:内容简介]
信息技术的快速发展和广泛应用,为机关档案管理模式创新提供了重要支持,特别是机关数字档案室建设成为其重要目标和内容,但也对机关数字档案信息安全提出了严峻挑战。文章分析了机关数字档案管理的特点,针对机关数字档案室建设中的安全风险点,提出具体安全管理策略,为机关数字档案室信息安全体系建立提供参考。
车辆重识别技术是安防、监控视频分析与理解的基础技术,也是构建天网工程、平安城市的重要环节。根据训练数据是否含有人工手动标注的标签,可将车辆重识别问题分为全监督车辆重识别问题和无监督车辆重识别问题。全监督车辆重识别任务面临着近相似的问题,本文针对该问题,设计并实现了一种基于局部特征和属性信息的全监督车辆重识别方法。与此同时,无监督车辆重识别任务面临着数据集歧视和难以训练的问题,为了解决以上两项问题,
CT图像肺部气管和血管分割对于肺部疾病的诊疗具有重要的研究意义。传统的分割方法基于边界、区域或特定模型进行图像处理,针对肺部密布的血管丛或气管树分割任务,必须依赖大量的人机交互才能提升分割精度。为保障自动分割精度,并提升分割效率,近年来深度神经网络作为特征提取工具逐渐在肺部血管或气管自动分割中得到应用,但因其效果受标注数据质量和规模的严重影响,限制了此类方法的推广。为解决这一问题,本文提出一种基于
稠密高程地图构建对于移动机器人星面探测、野外搜索等任务应用有着重要的作用,但是稠密地图构建存在数据量大、计算量大的难点,这对大范围地图存储和实时地图更新带来了巨大的挑战。本文基于2.5D稠密高程地图表示形式,提出了带有可行域信息的局部稠密高程地图快速构建系统、满足回航需求的可扩展全局一致的全局稠密高程地图在线构建系统和利用稠密高程地图的地点重识别融合网络。主要研究成果如下:1.设计了一种带有可行域
面向工业巡检的数字仪表读数识别普遍利用人工识别并记录仪表读数信息的方式,然而人工方式记录读数是影响工厂生产效率的重要因素。当工厂使用人工抄表,不可避免出现记录错误读数,耗时长等问题。因此,利用巡检设备自动优化记录过程,提高生产效率,并为记录读数提供准确保障。本文分析了工业巡检中数字仪表读数识别的影响因素,并根据工业巡检的功能和性能需求,设计了一种能够实现工业数字仪表读数实时识别的方案。本文利用巡检
作为机械臂操作的“圣杯”问题,无序抓取应用场景广泛,而稳定快速的物体识别和位姿估计算法则是该问题中的关键之一。本文针对无序抓取场景,应用基于物体渲染的样本合成方法,在已知物体CAD模型的基础上,合成大量训练数据,构造虚拟数据集,采用Mask R-CNN网络实现了堆叠场景的多工件识别与分割。在获取单目标工件数据后,提出了基于点对特征的改进算法,并且针对传统算法实时性差的问题,提出了基于深度学习的密集
河流作为水环境中的重要组成部分,在供给水源、维持生态、美化景观等诸多方面扮演着不可或缺的角色。但是,目前人类活动和自然因素导致河面频繁出现大量漂浮物,严重破坏了河道景观和水生态环境,已成为河道监管中重点关注的问题。在国内各省市全面推行落实“河长制”政策的背景下,很多地方开始采用摄像头进行河湖可视化监管以促进河湖面貌改善,但是人工参与程度依然较高,单纯依靠人力观看大量的监控资料来判断河湖状况。在这种