论文部分内容阅读
长尾分布是大数据时代下一种普遍的不均衡的数据分布形式。在长尾分布中,小样本类别所占的比例很大,它们对整个数据集的影响不能被忽略,而且这些小样本类别的识别往往具有更重要的价值。长尾分布分类要解决的关键问题是如何有效地解决小样本类别由于样本缺乏导致的统计特性不强,无法充分刻画其类内差异性的问题。尽管当前存在一些处理不均衡数据的方法,但是这些方法主要聚焦于如何增强小样本类别的统计特性,无法对超出训练集描述范围的真实类边界进行有效地推理。本文主要讨论如何利用类别之间的关联关系来估计小样本类别的真实类边界,围绕标记之间的一阶线性关联关系和高阶分层关联关系,以深度神经网络模型为基础、标记关联关系建模为主要技术手段、多任务交互辅助学习为指导,探讨标记结构的引入对长尾分布分类任务的影响。具体来讲,主要包括以下几方面的研究内容:(1)基于标记一阶线性关联关系的深度学习算法考虑了标记之间的一阶线性关联关系,将单个类别的样本分布建模问题转化为样本序列的建模问题,标记之间的概率依赖关系作为类别在训练样刻画之外的补充知识来促进标记的正确识别,并在此基础上将深度模型与条件随机场进行了结合,使得所提出的模型既能完成标记的关联关系建模又具有较强的特征学习能力。(2)基于标记高阶分层结构的多任务协同学习网络以标记空间的树状分层结构为基础,针对当前自顶向下分层分类策略中误差传递的缺点,以不同层级之间标记的关联关系为先验知识,研究了不同层级的多阶关联关系的建模方式和作用机理,构建了基于不同层级之间多个分类任务协同学习的深度神经网络模型和算法。(3)基于深度神经网络的标记结构优化学习为了使标记结构建模对于一般问题具有普适性,研究了标记结构自动构建算法。针对当前标记结构学习方法(即标记空间划分方法)在处理复杂的长尾分布分类问题上的本质缺陷,基于特征空间与决策空间的一致性要求,以分块稀疏约束为主要技术手段,提出了将特征提取、分类器训练和标记结构学习进行联合优化的统一深度神经网络模型和求解算法。最后本文针对长尾分布分类任务,提出了一套详细的基于标记关联关系的深度学习解决方案。所提出的方法验证了挖掘标记之间的关联性,并有效利用这种关联关系进行建模是解决长尾分布分类的有效手段。