论文部分内容阅读
数据挖掘和机器学习在人们的日常生活中扮演着越来越重要的角色,尤其是在计算机视觉和自然语言处理领域。然而,绝大多数的机器学习算法都建立在完全标注的数据集上,而现实场景中的数据往往是没有被标注的。为了避免耗费人力物力的人工标注数据的操作,半监督学习应运而生。半监督模型在仅仅需要少量的标签数据的同时,利用了大量无标签数据。然而,使用大量无标签数据之后建立的半监督模型的效果,有时候会比仅仅建立在少量标签数据上的监督模型的效果还差。这一现象通常被称为半监督学习的可靠性问题。因此,建立一个安全可靠的半监督模型是一项重要的科学任务,同样也有很强的应用价值。针对无标签数据的不确定和不可靠的问题,本文的工作分别从模型假设和数据的固有结构两个不同的角度,量化了无标签数据的安全性并学习出数据权重。对不可靠的无标签数据进行降权,减小这部分数据对模型的影响。现有权重学习算法,一方面,缺乏深入探索数据固有的结构信息,而单独依赖特定分类器的划分效果,使得权重值可能与所选分类器有关,不能反映真实的权重信息。另一方面,由于现有的可靠性模型建模的角度和模型的复杂性,使得它们并不能处理数据流数据,这在实际应用中还是一块很大的空缺。针对当前安全半监督学习算法的相关问题,本文首先从学习无标签数据权重出发,提出两个可靠半监督学习算法:ReSSL算法和RP算法。前者度量了数据与聚类假设的一致性程度,从而学习数据权重;后者是结合了数据邻域的标签规则度和数据流型结构的一种可靠性权重传播算法,并提出它的分布式扩展Distributed-RP算法以处理大规模数据;然后,本文提出两种在线可靠的半监督学习算法,即ReSSL Stream算法和BLS算法,以弥补当前可靠性半监督算法在数据流上应用的空白。总观全文,本文的创新点为:第一、本文结合数据固有的结构信息,提出两种学习无标签数据可靠性权重的算法,可用于检测无标签数据可用性。第二、结合数据的权重信息,本文提出两种全新的可靠的半监督分类算法。第三、考虑实际应用场景,本文提出数据流上的可靠半监督扩展算法,弥补当前算法在数据流上应用的空白。本文通过大量的实验表明了以上算法在真实数据上的有效性与优越性,并理论上分析了在线扩展算法的误差上界。