论文部分内容阅读
大数据中的海量样本、大规模类别和高维特征为机器学习带来了丰富的信息。类别之间还往往呈现出复杂的结构关系、不可避免存在的噪声数据也降低了数据的质量和可用性。这些数据特点给传统机器学习的特征降维方法和模型带来了严峻挑战:(1)大量的特征引起了维度灾难问题;(2)复杂的类别层次结构破坏了传统特征降维方法对类别相互独立的假设;(3)低质量数据破坏了传统特征降维方法对数据正确性的基本假设,这导致传统降维方法处理大规模的分类任务时表现不好,甚至不适用。本文针对类别具有层次结构、数据质量低的分类任务,充分挖掘和利用类别的层次结构信息,设计噪声过滤机制,进行基于类别相关性的鲁棒分层特征降维方法研究,主要包括以下三个研究内容:1)基基于类别离散度的分层特征提取。针对传统特征提取方法忽略了类别间复杂层次关系、所提特征容易导致重大分类错误的问题,采用“分而治之”策略,以类别结点为单位分解分层分类任务,再对不同粒度的任务分别定义类间离散度矩阵、类内离散度矩阵,最终根据判别分析思想提出一种基于类别离散度的分层特征提取方法。2)基基于类别相似关系约束的鲁棒分层特征选择。针对传统特征选择方法忽略类别间关系、大多特征降维方法鲁棒性不足的问题,根据上层粗粒度任务包含当前任务,应该与当前任务具有一定的相似性,定义一个类别间相似性的关系约束,再利用Capped最小二乘损失函数过滤野值噪声数据,最终提出一种基于类别相似关系约束的鲁棒分层特征选择方法。3)基基于类别中心泛化约束的鲁棒分层特征选择。针对传统特征选择方法忽略类别间关系、大多特征降维方法鲁棒性不足的问题,认为当前粗粒度分类任务包含其下属所有细粒度分类任务,该粗粒度类别是其子类别的泛化,应该靠近其子类的中心,据此定义一个类别间中心泛化约束,再利用鲁棒的Capped hinge损失降低噪声数据对模型的作用,最终提出一种基于类别中心泛化约束的鲁棒分层特征选择方法。