论文部分内容阅读
多类标问题在现实世界中普遍存在。在多类标分类问题中,训练集中的每个样本都对应由一个或者多个类标组合而成。多类标学习的任务就是在类标集大小未知的情况下,为未知的样本预测其类标集。传统的分类中每个样本只属于一个类,多类标分类问题与之明显不同。因此,单类标分类的算法不能直接用于处理这类多类标数据。传统的多类标分类算法大多是在常见的单类标算法基础上进行改进,这类算法均非常依赖于机器学习所需要的训练数据集。因此,如何在训练数据稀缺的现实环境下利用少量的标记样本和大量的未标记的样本进行学习,构建有效的分类器,成为当前该方向的重点和难点。针对传统的多类标分类算法需要大量已标记数据才能有效建模的问题,提出一种使用高斯域和贝叶斯网络来结合主动学习与半监督的多类标分类算法。(1)首先,针对多类标数据的特征属性维数高的特点,提出了一种采用LLE降维算法并建立多个贝叶斯网络的多类标分类算法;(2)然后,在高斯随机域模型的基础上提出了一种结合主动学习的半监督贝叶斯网络多类标算法:ML-ASGB,该算法能使贝叶斯网络多类标分类器选择少量高质量的样本人工标记并利用大量未标记样本来有效建模。实验结果表明:相比ML_KNN和Semi-Boost等其它算法,ML-ASGB算法具有较高的性能,且加入主动学习能比随机选择在获得相当性能的情况下有效的减少了标注样本的数目。