论文部分内容阅读
分类算法是一种重要的机器学习数据挖掘技术,而训练集的选取对于分类函数或模型的建立起到了非常关键的作用。在现实中,带标签的训练数据往往很难获得,即使是已标注的数据,也往往包含漏标和错标的标签,这些都会影响到分类算法的训练学习过程。本论文深入分析了分类算法训练集可能出现的各种问题,在研究国际上大量经典分类算法的基础上,提出了多种基于生成式模型和基于判别式分类器的算法,通过利用未标注数据空间,多标签空间,和多视图空间中的信息来解决训练集已标注数据不足和已标注数据标签非完美的问题。论文的主要工作和创新之处在于:1.提出了一种基于分层狄利克雷过程的生成式模型,以解决多标签分类中存在的不完整标注问题。该统计模型充分利用训练集中已标注标签的信息,通过迭代更新训练集中的不完整标签,在学习过程中不断的增强标签和样本特征之间的关联性,既能对训练集中存在的不完整标注样本进行标签补全,又能对新的完全未标注的样本进行准确的标签预测。2.提出了多种判别式分类器,可以同时利用训练集样本所包含的所有标签信息,以解决多标签分类中存在的噪声标注问题。该类判别式分类器将样本包含的标签信息看作为一种额外的特征,利用在多标签空间中定义的一种充分考虑标签关系的距离度量方式,得到了训练样本点在多标签空间中的邻域,并将这种邻域信息应用到分类器的学习过程中,以降低噪声对于训练过程的影响,提高分类准确度。3.提出了一种基于判别式分类器的学习框架,可以解决多标签分类中存在的不完整标注问题和噪声标注问题。该算法框架通过给训练集中的样本添加不同的权重来反应出它们对于类别的代表价值和对于训练学习过程的帮助程度,结合利用跨媒体多视图中存在的信息互补性不断更新这些权重,同时利用多标签空间中包含的信息,既能用来专门对训练集中的不完整标签进行补全,又能用来对训练集中的噪声标签进行降噪。4.提出了一种判别式分类方法,以解决多标签分类中存在的训练集已标注数据有限且有噪声的问题。该分类方法可以学习出与已标注数据空间互补的未标注数据空间,并将训练集中已标注数据投影到这个互补空间中,作为额外的数据特征在训练过程中加以利用,以解决训练集已标注数据有限的问题。同时能够通过多标签邻域约束,利用多标签空间中包含的信息对训练集中存在的噪声标签进行降噪。