论文部分内容阅读
在传统的机器学习中,学习器通过对大量有标记样本进行学习来建立模型预测新样本的标记。但是收集大量数据相对容易,而对这些大量数据提供标记却比较困难,因为对数据进行标记需要付出人力物力。因此,如何利用大量廉价的未标记数据来辅助提高泛化性能已成为当前机器学习研究中最受关注的问题之一。在很多实际任务中,数据往往具有多个视图(即多个属性集),基于不一致性的学习是这种情况下利用未标记数据进行学习的主流风范,在实际应用中取得了很好的效果。但对多视图在利用未标记数据中的效用,在理论上还有很多方面不清楚。本文对此进行理论分析,主要取得了如下创新成果: 第一,对多视图在半监督学习中的效用进行分析,证明了只要学习器具有较大的差异,协同训练就可以有效进行;通过建立协同训练与基于图的方法之间的联系,从理论上给出了协同训练成功的充分必要性定理,解决了这个已存在12年的重要问题。该理论结果揭示了多视图并非协同训练的必要条件,不仅为已有的单视图协同训练提供了理论支撑,还拓展了半监督学习方法的设计途径。 第二,对不完备视图在半监督学习中的效用进行分析,揭示了视图不完备时协同训练会受到标记噪声和采样偏差的限制,但在视图之间预测置信度的差异较大时,协同训练可以克服标记噪声和采样偏差的制约。该理论结果解释了为何视图不完备时协同训练也可以有效地利用未标记数据提高泛化性能,从而弥补了以往理论研究与实际应用之间的间隙。 第三,对不完备视图在主动学习中的效用进行分析,从理论上证明了当视图的不完备性由Tsybakov噪声引发时,多视图主动学习可以将样本复杂度指数级地降低为(O)(log1/ε)。这一结果对于有界和无界的Tsybakov噪声都是成立的,而以往理论分析显示出,对无界Tsybakov噪声,单视图主动学习最多只能将样本复杂度多项式级地降低为O(ε-p)。该理论结果为多视图主动学习在实际应用中的有效性提供了理论支撑。 此外,本文还对多示例多标记学习的可学习性进行了理论分析,揭示了由多示例单标记假设空间构造得到的多示例多标记假设空间是PAC可学习的。