论文部分内容阅读
多标记学习是机器学习领域中的重要研究方向之一,它能够直观地反映多义性对象所具有的多种语义信息,其学习的任务是为待学习样本预测其对应的类别标记集合。近年来,研究学者们对多标记学习问题提出了很多学习方法和策略,并将其应用于网页文本分类、图像场景分类和生物信息学等实际领域中。然而传统的多标记学习仍然是在监督意义下进行的,即要求训练数据集的训练样本必须全部是已标记样本,但是,在现实生活中,获得足够的有标记样本集十分困难。因此,鉴于上述的不足,本文结合半监督学习中最重要风范之一的协同训练机制,利用协同训练机制能够综合利用少量的已标记样本和大量的未标记样本以提高泛化性能的优点,研究如何充分利用半监督学习的优势来完成多标记学习任务。主要工作内容包括以下三个方面:(1)利用“一阶”策略,将多标记学习问题分解为多个二类分类问题,结合Tri-training算法训练分类器,设计了一种基于Tri-training的半监督一阶多标记学习算法。该算法忽略标记之间的相关性,将多标记学习问题分解为多个单标记学习问题,对已标记样本集中样本的每一个标记进行训练,并利用Tri-training过程学习得到相应的3个分类器。面对一个新的测试样本,用学习到的3个分类器对相应的每一个标记进行投票,从而得到一组对测试集样本的预测结果。通过在UCI数据、网页文档分类数据和自然场景分类数据上的对比实验表明,提出算法能够得到较好的分类结果。(2)利用“二阶”策略,考察两两标记之间的相关性,将多标记学习问题转化为标记排序问题,结合Tri-training算法训练分类器,设计了一种基于Tri-training的半监督二阶多标记学习算法。在学习阶段,该算法首先为已标记样本集中的每一个样本添加一个虚拟标记,然后对每一对标记进行训练,并利用Tri-training过程学习得到相应的3个分类器;在预测阶段,给定一个新的测试样本,用学习到的分类器对相应的每一对标记进行预测,并统计每个标记所得的票数,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,最后将虚拟类标记的得票数作为阈值对标记排序结果进行划分,即可得到一组对测试集样本的预测结果。通过在UCI数据、网页文档分类数据和自然场景分类数据上的对比实验表明,提出算法能够得到较好的分类结果。(3)设计并实现了基于Tri-training的半监督多标记学习系统。该系统在充分考虑界面美观、人机交互友好以及易于维护更新的基础上,以MATLAB为后台,链接SQL Server数据库,在C#平台下进行总体搭建。系统融合了多个经典的多标记学习算法,集成的算法包括ML-kNN算法、Rank-SVM算法、LEAD算法、TRAM算法以及本文提出的基于Tri-training的一阶算法和基于Tri-training的二阶算法。通过实际的操作比较,设计的系统界面简洁美观,操作简单快捷,方便了用户进行理论创新和实验比较。本文结合协同训练机制,为多标记学习如何开展有效地半监督学习提供了参考,也在不同的策略下探索了多标记学习分类算法的综合性能。