隐私保护场景下的多源结构化数据调试技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wychenjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,数据隐私泄露事件频发,隐私泄露造成的危害越来越大,数据隐私保护变得尤为重要。联邦学习可以在保护数据隐私的同时,挖掘数据价值。然而,标签噪声数据严重影响联邦学习模型效果,阻碍联邦学习的应用。目前联邦学习场景下的标签噪声调试研究主要是通过选择数据质量高的联邦节点或者标签正确的样本数据,来减少标签噪声对联邦模型的影响。但是,上述方法难以兼顾过滤数据集的纯度和丰度。节点选择方法没有真正识别噪声数据,调试粒度相对粗糙;样本挑选方法丢失了部分数据特征,同样影响模型性能。此外,上述方法都需要额外的纯净数据集辅助完成调试。针对上述问题,本文提出了隐私保护标签噪声调试体系结构,研究了隐私保护场景下的标签噪声调试技术。该体系结构主要包含两个模块,涉及两项标签噪声调试技术,分别是联邦标签噪声过滤和联邦数据增强。联邦标签噪声过滤使用识别并过滤联邦节点中的标签噪声数据,减少标签噪声对联邦学习模型的影响;联邦数据增强训练联邦生成模型,生成高质量合成数据,对过滤数据集进行增强,提升模型效果。本文基于异常点检测的思想,提出了基于图结构的联邦标签噪声过滤方法。该方法利用神经网络模型提取数据的特征表示,将正常数据和噪声数据进行区分。然后基于特征表示构建局部KNN图,在图上执行两步过滤。同时结合多轮次学习的思想,迭代地进行网络训练和噪声过滤两个阶段,得到更纯净的数据集。相比其他方法,本文方法不仅在多个场景下取得了较好的机器学习模型性能,而且有效地平衡了过滤数据集的丰度和纯度。由于噪声过滤导致部分数据或特征丢失,本文提出了基于联邦生成模型的数据增强技术。本文设计了联邦变分贝叶斯混合模型提取全局分布,并基于该分布对数据进行编码,解决了分布式结构化数据中存在的连续列多模式问题。另外,该方法还添加了分类器和分类损失,使联邦生成模型学习到结构化数据的列关联性。实验结果表明本文的联邦生成模型生成的数据和原始数据具有统计相似性,并且在下游机器学习任务上表现良好。最后,通过数据增强实验验证了本文提出的体系结构相比单独使用上述两项技术具有更好的效果。
其他文献
针对物体的三维重建是计算机视觉中的重要课题之一,一直以来都备受研究人员的关注。随着深度学习技术的不断发展,研究者们开始从多视图几何的三维重建方法转向了基于深度学习的三维重建方法。特别是是隐式函数表示在三维重建方法中取得的成果,更是表现出了巨大的发展潜力。隐式函数表示的三维重建方法学习物体表面隐式表示的连续场,通过预测三维空间中的任意点是否位于物体的内侧。因此,复杂的重建问题得以转换为简单的分类问题
学位
近年来人工智能不断发展,在非完备信息博弈领域中的应用逐渐深入。而证券投资市场信息海量、场景复杂,适用于人工智能的应用场景。证券投资中一个必不可少的要点是理性投资,其中一个关键的环节就是科学地对投资者进行评测诊断。科学的评测诊断方法不仅要考虑投资者自身的投资策略,还需要考虑外部市场环境和金融事件。为了验证金融事件对投资结果的影响,不仅需要从金融新闻文本中抽取相关事件信息,还需要分析事件对证券价格的影
学位
近年来,人工智能发展迅速,应用领域越来越广泛。在人工智能的众多应用领域中,金融领域是人们关注的焦点之一,因此人工智能与金融相结合衍生的交叉学科-智慧金融得以迅速发展。智慧金融研究方向众多,其中如何通过人工智能技术给予投资者个性化的金融服务凭借其广阔的应用前景脱颖而出成为大家研究的热点。如今的市场上个性化金融服务种类繁多,其中如何选择股票是投资者尤其是新手投资者在投资时最为关心的一项。基于以上背景,
学位
研究目的:颅内动脉瘤好发于血管分叉处,提示颅内动脉瘤的发生与血管形态密切相关。本研究通过探讨大脑中动脉(Middle Cerebral Artery,MCA)分叉处形态学相关参数与动脉瘤发生的关系,从而寻找分叉处动脉瘤发生的高危因素,为后期对高风险患者进行动脉瘤筛查及预测提供理论依据。研究方法:本研究回顾性分析了我院2018年1月至2020年12月期间的60例大脑中动脉分叉动脉瘤患者,并选择60例
学位
目的:评估肝细胞肝癌(HCC)微血管侵犯(MVI)的临床指标及CT影像征象,并建立预测发生MVI风险的列线图模型。方法:回顾性分析160例经术后病理证实为HCC患者的CT影像特征及临床资料,并与病理结果进行对照分析,筛选出MVI相关的预测因素,应用列线图构建评分模型,并评估模型的预测能力。结果:筛选出肿瘤直径、肿瘤形态及低密度环征3个危险因素,并应用列线图构建评分模型。列线图模型的C-index=
学位
目的:应用左室压力—应变环(LV–PSL)评估左室射血分数(LVEF)减低的急性ST段抬高型心肌梗死(STEMI)患者心肌做功变化,并探讨早期心肌做功参数在预测左室收缩功能变化中的临床价值,以期为临床诊疗、预后评估提供新的依据。方法:选取2020年3月—2020年12月在我院因初发急性STEMI行PCI治疗后左室射血分数(LVEF)减低的患者62例。记录所有患者住院期间的基本临床资料,包括:人口学
学位
目的旨在建立预测甲状腺微小乳头状癌(PTMC)侵袭性的超声联合基因风险预测模型,为主动监测PTMC提供理论依据。方法选取2017年10月至2021年1月264例行手术治疗并经术后病理诊断为PTMC的患者。将2017年10月至2019年4月收集的154例纳入模型组,2019年5月至2021年1月收集的110例纳入验证组。分析模型组154例经术后病理证实为PTMC患者的临床资料、超声特征及BRAF V
学位
研究目的研究人组织激肽释放酶结合蛋白(Kallistatin)及高迁移率组框蛋白1(High mobility group-1,HMGB-1)在间质性肺疾病(Interstitial lung disease,ILD)之中的诊断价值及临床意义。研究方法选取2021年4月-2021年7月在安徽医科大学第二附属医院就诊经高分辨率CT(High-resolution computerised tomog
学位
目的1.探讨不同B7-H3表达水平肺腺癌患者对EGFR-TKI靶向治疗应答率的影响2.探讨共信号分子B7-H3与肺腺癌(EGFR-TKI)靶向治疗继发性耐药的相关性方法1.采用免疫组化方法检测56例肺腺癌组织B7-H3表达,将其分为低表达和高表达两个水平,并分析了B7-H3高/低表达与一线抗EGFR治疗的临床结局之间的关系。分析的主要标准为总缓解率(ORR)、疾病控制率(DCR)和无进展生存期(P
学位
如今,人工智能正在深刻影响和改变着我们的世界,智能人机交互的发展及应用极大程度上提高了我们的生活质量。语音合成技术能赋予机器像人一样自如说话的能力,是智能人机交互中非常重要的一环。近十年,基于神经网络的语音合成系统可以更快速地合成高质量音频,逐渐成为了主流。在汉语作为母语的同时,英语也逐渐成为我们的第二语言,中英文混读现象日益常见,中英文跨语言语音合成需求越发迫切。然而,主流的语音合成模型往往仅支
学位