论文部分内容阅读
在大数据时代,随着计算机技术的发展以及硬件水平的提高,获取数据的途径和存储数据的硬件也变得越来越多,这使得我们经常要面临数据由不同节点(站点)分布式地收集和存储的情况。在此场景下,分布式信息处理应运而生。在分布式处理中,各节点能利用本地数据进行局部计算,同时又能与邻居节点进行少量的信息交互。通过这样的方式,各节点能在不直接传递原始数据的情况下,获取了全局的信息,从而实现了完全去中心化而又具有全局意义的信息处理。在机器学习领域,近年来大量的分布式机器学习算法被相继提出。然而,已有的算法大多采用有监督的学习方式,它们通常需要足够多的有标签样本以保证学习的性能。然而,在许多实际应用中,获取大量高质量的有标签数据需要耗费大量的人力物力,因而收集来的数据常常是无标签的或是弱标签的。此外,由于物理或人为的原因,收集来的数据常常存在属性缺失。针对这些情况,本论文系统地开展了分布式场景下的半监督学习研究,以期深度挖掘无标签样本信息,提高分布式学习的性能。本论文主要聚焦于网络化系统中的流数据、多标签数据、样本属性缺失以及带有偏标签数据四种情况开展了系统的研究。我们克服了分布式实现的难点,并提出了相应的分布式半监督学习算法。本文的主要工作和创新点总结如下:首先,针对网络化系统中的流数据分类,本文分别提出了两种面向水平划分和垂直划分的两种在线分布式半监督支持向量机算法。在算法中,我们基于锚数据点定义了新的流形正则项以挖掘有标签数据和无标签数据的信息,从而实现了全局代价函数的完全去中心化。另外,我们利用稀疏随机特征映射对原有核特征映射进行了估计,使得模型参数能被显式表达,从而避免了原始数据在节点间的直接传递,保护了数据隐私。我们对提出算法的收敛性与复杂度进行了理论分析,还利用若干数据集对提出算法的有效性进行了验证。接着,本文考虑了多标签学习问题,基于线性和非线性判别模型,提出了两种分布式半监督多标签学习算法。在算法中,我们基于信息测度构建了代价函数,同时定义了标签相关性项,以挖掘各标签对间的相关性。考虑到不同标签错分导致的损失可能不同,我们将代价函数定义为代价敏感的。此外,我们采用分布式矩阵完备方法对标签相关性项进行了分布式估计,从而实现全局代价函数的去中心化。我们对算法的性能进行了理论分析,还将提出算法与现有的多标签学习算法进行了比较,实验结果表明提出算法性能明显优于已有的多标签分类算法。然后,我们考虑带缺失数据的情况,提出了基于子空间学习的分布式半监督缺失数据分类算法。在算法中,我们构建了基于子空间学习的属性填充和分类器联合学习框架。同时,提出了一个新正则项,以实现所有数据(包括有标签数据和无标签数据)预测标签类内距离的最小化,类间距离的最大化。理论分析和若干数据集的仿真实验表明提出算法的性能接近于对应的集中式算法,且明显优于已有的缺失数据分类算法。最后,本文考虑了标签存在歧义的情况,基于平均消歧策略,提出了分布式半监督偏标签学习算法。在算法中,我们设计了一套消除假标签歧义的框架。具体地说,我们将无标签数据中所有可能的类标签定为候选标签,并对各数据中的不同候选标签的置信度和不同数据的重要性进行了自适应估计。经过若干轮迭代后,可将条件概率最大的候选标签视作真实标签。我们对算法的收敛性和计算通信复杂度进行了分析,利用大量仿真实验对算法的性能进行了测试。实验结果表明提出算法性能明显优于已有的偏标签学习算法。