论文部分内容阅读
图像分类是计算机视觉、模式识别领域的研究热点,在智能交通、安全监控、机器人导航等领域有着广泛的应用。在图像分类中,需要大量有标记的样本来训练稳定的分类模型,以实现对未知图像的准确分类。但是在实际应用中,有标记的图像数量非常之少,无标记的图像却随处可见,且图像的人工标记是件费时费力的工作。为了减少人工标记工作量,主动学习(Active Learning)技术被引入到图像分类中。主动学习的主要思想是:在大量未标记的样本中,采用某种策略,挑选少量最有信息量且最具代表性的样本交给专家进行标记。使用标记过的样本训练模型,实现对未知样本的准确分类。主动学习的核心技术是如何设计准则来挑选最具信息量的样本,以最大程度提升分类模型的性能。本文研究面向图像分类的主动学习技术,提出了几种新的主动学习方法,通过图像分类实验验证了它们的有效性。本文的主要工作和创新点集中在以下几个方面:首先,在最优实验设计(OED)算法的基础上,考虑样本之间的近邻重构关系,提出一种近邻保持的实验设计方法(NPDOD)。传统的OED只考虑标记样本的平方误差,而忽视了未标记样本的信息。受到局部线性重构(LLE)的启发,本文假设样本的类别标签也可以由其近邻样本的标签近似重构。NPDOD方法在最小化回归平方误差的同时,也最小化近邻样本的类别重构误差,使得回归模型方差最小的样本被认为是最有信息量的样本,被挑选标记且用于训练模型。其次,提出基于动态规划的多准则组合主动学习方法。传统的主动学习方法仅仅依赖于一个准则抽样,如样本的不确定性、密度等,但是忽视了样本间的冗余性等信息。针对没有初始标记样本的情况,提出最大密度最小冗余的主动学习方法(MDMR),该方法可以挑选密度大且冗余性小的样本进行标记;对于有少量初始标记样本的情况,提出一种不确定性与多样性组合的主动学习方法(AL.UD),挑选不确定性大、冗余性小的样本标记。这两种方法都将两个准则有效的结合在一起,将样本选择问题,近似的转变成一个动态规划问题。此外,提出基于二次规划和子模块函数的多准则主动学习方法。该方法在挑选样本时,综合考虑了样本的不确定度、密度和冗余信息,提出了一种新的抽样模型。该模型可以通过二次规划方法和子模块函数方法近似的求解。在二次规划方法中,采用增广拉格朗日乘子法以更快得求得最优解;在子模块函数方法中,使用了一种贪婪算法,子模块函数的性质保证了最终解与全局最优解的逼近程度。最后,提出基于半监督学习的主动学习方法。主动学习方法只能利用标记的样本而忽视了未标记样本。半监督学习中的标记样本是固定的,可能并不具有很大的信息量和代表性。鉴于以上原因,本文将半监督学习与主动学习组合。基于局部和全局一致性学习方法(LLGC),提出一种期望风险最小化的主动学习方法,挑选某个样本,使得其它所有未标记样本被分类错误的期望最小。