论文部分内容阅读
传统机器学习技术通过对有标记数据(labeled data)的学习来构建模型,为了获得强泛化能力,通常需要有大量的有标记数据。在很多现实任务中,虽然很容易获得大量未标记数据(unlabeled data),但是获取数据的标记却相对困难,因为标记过程需要花费人力物力资源;因此,如何有效地利用未标记数据来提高泛化性能,成为机器学习领域的一个关键问题。半监督学习是该方面的两大主流研究方向之一,而半监督支持向量机(Semi-Supervised SVM,简记为S3VM)则是半监督学习中的一类主流范型。经过十年的研究,S3VM已经取得了很多进展,并且在众多领域得以成功应用。然而,该范型所涉及的一些重要问题,例如其对数据规模的可扩展性、计算效率、非均衡代价处理、未标记数据利用的安全性等,仍焏待研究。本文对半监督支持向量机涉及的若干重要问题进行研究,主要取得了以下创新成果:第一,对提高S3VM处理数据规模的可扩展性进行研究,提出了基于标记生成的大规模半监督支持向量机学习方法WELLSVM。该方法通过“标记生成”技术,使得S3VM可以有效处理近百万量级的样本。论文在理论上对求解效果的全局保证与时间复杂度进行分析,并在大量数据集上进行了实验验证。结果表明,在大规模数据上WELLSVM把经典S3VM能够处理的数据规模提高了10倍以上。此外,WELLSVM可容易拓展以求解其他复杂学习任务,例如多示例学习、聚类等。第二,对加快S3VM的计算效率进行研究,提出了基于类中心估计的快速半监督支持向量机学习方法MeanS3VM。该方法不需估计所有未标记数据的标记,只需估计类中心即可完成学习模型的构建,从而大幅度提高了S3VM的效率。论文在理论上对MeanS3VM的逼近能力进行了分析,并在大量数据集上进行了实验验证。结果表明,随着数据规模的不断增大,MeanS3VM的计算优势更加明显,通常可以把经典S3VM的计算效率加快10倍以上第三,对赋予S3VM处理非均衡错误代价的能力进行研究,提出了代价敏感半监督支持向量机学习方法CS4VM。该方法通过优化有标记与未标记数据上的总体代价,从而可以有效减少数据总体错误代价。论文在大量数据集、大量非均衡错误代价设置上进行了实验验证。结果表明,当代价严重不均衡时,CS4VM在超过80%的情况下降低了经典S3VM的总体错误代价,其中70%以上的情况,总体错误代价的减少量超过1/5。第四,对提高S3VM利用未标记数据的安全性进行研究,提出了安全半监督支持向量机学习方法S4VM。该方法通过最大化最坏情况下的性能提升,使得利用未标记数据进行学习后,不会有泛化性能显著下降的情形发生。论文在理论上对S4VM的安全性进行了分析,并在大量数据集上进行实验验证。理论结果表明,只要半监督学习的“低密度划分”基本假设成立,则S4VM必然安全。实验结果表明,S4VM将性能显著下降的比例从经典S3VM的15%下降到不足1%,并取得高度可比的性能。由于支持向量机学习方法具有一般性,论文还对半监督支持向量机学习方法的拓展进行了研究。具体而言,论文将半监督支持向量机推广用于求解多标记学习问题,显示出半监督多标记支持向量机可以通过利用未标记数据而显著提升多标记学习的泛化性能;论文对多示例多标记支持向量机进行研究,显示出在多示例多标记学习中,支持向量机通过对示例标记进行学习可以获得更好的泛化性能,并且还可以在一定程度上发现输入特征模式和输出语义标记之间的关系。