分布式半监督学习算法研究

来源 :浙江大学 | 被引量 : 2次 | 上传用户:freebird23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,随着计算机技术的发展以及硬件水平的提高,获取数据的途径和存储数据的硬件也变得越来越多,这使得我们经常要面临数据由不同节点(站点)分布式地收集和存储的情况。在此场景下,分布式信息处理应运而生。在分布式处理中,各节点能利用本地数据进行局部计算,同时又能与邻居节点进行少量的信息交互。通过这样的方式,各节点能在不直接传递原始数据的情况下,获取了全局的信息,从而实现了完全去中心化而又具有全局意义的信息处理。在机器学习领域,近年来大量的分布式机器学习算法被相继提出。然而,已有的算法大多采用有监督的学习方式,它们通常需要足够多的有标签样本以保证学习的性能。然而,在许多实际应用中,获取大量高质量的有标签数据需要耗费大量的人力物力,因而收集来的数据常常是无标签的或是弱标签的。此外,由于物理或人为的原因,收集来的数据常常存在属性缺失。针对这些情况,本论文系统地开展了分布式场景下的半监督学习研究,以期深度挖掘无标签样本信息,提高分布式学习的性能。本论文主要聚焦于网络化系统中的流数据、多标签数据、样本属性缺失以及带有偏标签数据四种情况开展了系统的研究。我们克服了分布式实现的难点,并提出了相应的分布式半监督学习算法。本文的主要工作和创新点总结如下:首先,针对网络化系统中的流数据分类,本文分别提出了两种面向水平划分和垂直划分的两种在线分布式半监督支持向量机算法。在算法中,我们基于锚数据点定义了新的流形正则项以挖掘有标签数据和无标签数据的信息,从而实现了全局代价函数的完全去中心化。另外,我们利用稀疏随机特征映射对原有核特征映射进行了估计,使得模型参数能被显式表达,从而避免了原始数据在节点间的直接传递,保护了数据隐私。我们对提出算法的收敛性与复杂度进行了理论分析,还利用若干数据集对提出算法的有效性进行了验证。接着,本文考虑了多标签学习问题,基于线性和非线性判别模型,提出了两种分布式半监督多标签学习算法。在算法中,我们基于信息测度构建了代价函数,同时定义了标签相关性项,以挖掘各标签对间的相关性。考虑到不同标签错分导致的损失可能不同,我们将代价函数定义为代价敏感的。此外,我们采用分布式矩阵完备方法对标签相关性项进行了分布式估计,从而实现全局代价函数的去中心化。我们对算法的性能进行了理论分析,还将提出算法与现有的多标签学习算法进行了比较,实验结果表明提出算法性能明显优于已有的多标签分类算法。然后,我们考虑带缺失数据的情况,提出了基于子空间学习的分布式半监督缺失数据分类算法。在算法中,我们构建了基于子空间学习的属性填充和分类器联合学习框架。同时,提出了一个新正则项,以实现所有数据(包括有标签数据和无标签数据)预测标签类内距离的最小化,类间距离的最大化。理论分析和若干数据集的仿真实验表明提出算法的性能接近于对应的集中式算法,且明显优于已有的缺失数据分类算法。最后,本文考虑了标签存在歧义的情况,基于平均消歧策略,提出了分布式半监督偏标签学习算法。在算法中,我们设计了一套消除假标签歧义的框架。具体地说,我们将无标签数据中所有可能的类标签定为候选标签,并对各数据中的不同候选标签的置信度和不同数据的重要性进行了自适应估计。经过若干轮迭代后,可将条件概率最大的候选标签视作真实标签。我们对算法的收敛性和计算通信复杂度进行了分析,利用大量仿真实验对算法的性能进行了测试。实验结果表明提出算法性能明显优于已有的偏标签学习算法。
其他文献
毋庸置疑,新科技推进了医学教学的进步。李泽森是一名医学院的学生。他无需再像十几年前的师兄们那样,在枕边放着一颗颅骨,以便随时复习。在课堂上,大家可以使用MR眼镜,更清
毛泽东善于把党的群众路线和医疗卫生事业有机结合,坚持实事求是的思想路线,逐渐形成了"人民卫生事业是一项重大的政治任务""一切为了人民健康""治病救人,救死扶伤是医务工作
~~
会议
新型冠状病毒肺炎(新冠肺炎)为新发急性呼吸道传染病,目前已成为全球性重大的公共卫生事件。通过积极防控和救治,我国境内疫情基本得到控制,仅在个别地区出现局部暴发和少数
我国劳动法对劳动者实行统一保护,这种无差别的劳动保护方式引发了诸多问题,已经不能满足对劳动者保护的实际需求。尽管我国部分法律法规针对不同的劳动者进行保护,但远远满
目的:通过对基于“冲为血海”的分期针灸疗法对IVF-ET PCOS的疗效观察,验证该方法的临床疗效并讨论其内在机制。方法:应用Resman数据库的随机数生成法将符合纳入标准的72例行
目的:1.通过研究黄柏碱对α-葡萄糖苷酶的体外抑制作用、作用方式以及作用分子机制,探讨降糖中药黄柏中主要成分之一黄柏碱通过抑制α-葡萄糖苷酶活性降低餐后血糖的可能性。2.通过建立胰岛素抵抗(IR)HepG2细胞模型,研究黄柏碱对IR-HepG2细胞糖脂代谢紊乱状态的改善作用,并通过考察其对IR-HepG2细胞IRS-1/PI3K/Akt胰岛素信号通路的干预作用来探讨黄柏碱改善HepG2细胞胰岛素抵
随着国内经济社会的快速发展和人民生活水平的不断提升,人们对高质量、高标准的生活追求越来越多,乡村旅游也因此得到快速发展,并日益成为促进乡村经济发展,提升农村生活水平,带动农民就业的一项重要产业,在带动精准脱贫、提升农民收入、拓宽就业渠道、建设新型农村、实现壮村富民等各方面发挥着重要的作用。当前,我国乡村旅游发展,经过前期的探索和推动,正处于滚石上山、爬坡过坎的关键期,多地特色小镇、旅游小镇的出现,
钢-混组合梁桥技术近年来在国内外均取得了迅速发展。其中钢板混凝土组合梁桥,横向由多片工字钢以联结系连接成整体,需要考虑横向受力性能对结构的安全性和耐久性的影响。国内外现行规范对钢板混凝土组合梁的横向受力性能规定尚不系统,应进一步研究。本文以公路钢板混凝土组合连续梁为研究对象,通过数值模拟、试验研究与理论分析,详细开展了对组合连续梁刚度、横向协同受力、应力与变形的研究,分析了横向联系、桥面板以及车辆
目的:设计合成酒石酸唑吡坦片中杂质Ⅰ。方法:以唑吡坦及1-溴代乙酸乙酯为起始原料,经一锅法合成得到酒石酸唑吡坦片中的杂质Ⅰ(4-(二甲胺基)-3-(6-甲基-2-对甲苯基咪唑并[1,