论文部分内容阅读
图像识别在现代社会生活中正发挥着越来越重要的作用,而特征表达和特征建模(分类器模型设计)是图像识别中的核心任务。由于目标本身及背景的模式复杂性,再加上拍摄环境、光照、遮挡等因素的影响,物体在图像中往往呈现比较复杂的表观,单一特征和简单识别模型常常无法很好地对图像中的物体进行准确刻画,从而经常导致较低的识别率。多特征融合是解决这一问题的一个有效途径,本文从浅到深,依次探讨了基于多核度量学习的特征融合算法,基于多核支持向量机的特征融合算法,以及基于集成多个核分类器输出的后特征融合算法。并针对具体的图像识别问题给出了实验系统和结果分析。论文的主要贡献包括如下三个方面:(1)提出了一种多核相似性度量(MKSM:multiple kernel similarity metric),用解决基于面部图像对亲属关系验证(KV:kinship verification)问题。与以往的基于线性度量的方法不同,所提出的MKSM本质上是多个基核相似度的线性组合,根据基核选择的不同,该多核度量总体上既可以是线性度量也可以是非线性度量,这样不仅改善了度量表示和学习的灵活性、增强了度量的表达能力,同时也实现特征融合的功能。另外,为了求解所提出的MKSM度量的模型参数,提出一种最大间隔(LM:large margin)准则,该LM准则最终转化为带有对基核系数向量L1范数约束的最优化问题,问题的求解最终导致稀疏的基核系数向量,从而实现KV问题中的特征选择,并提高在预测阶段的效率。在公开数据集上的实验结果表明,仅仅使用极少量的局部特征,所述算法就能实现与其他最先进算法相匹敌或者更优的性能。(2)提出一种基于间距最大化的两步骤多核学习算法,分别采用基于近邻的样本间距最大法(MCKM-k NN:multi-class kernel margin with k-nearest neighbors),和基于稀疏表达的样本间距最大法(MCKM-SR:multi-class kernel margin with sparse coding)来来学习组合核函数。与其他基于核间距的方法不同,在MCKM-k NN中,我们用基于k近邻的样本-类间距来代替以往算法中的基于平均方案的样本-类间距,从而在分类性能上取得了显著的提升。不同于MCKM-k NN方法中使用固定的近邻数目以及固定的近邻权重1/k,在MCKM-SR方法中,通过求解稀疏表达问题,来确定每个样本-类间距计算时所用的近邻数目k以及相应的近邻权重,实验证明相比于MCKM-k NN法,MCKM-SR法在分类精度上有更进一步的提升。(3)针对于手势检测容易受到动态场景和复杂背景影响的问题,提出了一种以支持向量机(SVM:support vector machine)作为转换函数的多特征融合方法。在该方法中,首先,分别基于传统特征和肤色增强特征为每个手势训练单独的SVM分类器,作为更高层更抽象的特征提取函数,接着将同类手势的所有SVM的输出用逻辑回归(LR:logistic regression)进行融合(后特征融合)以实现对单一手势的检测;最后使用Softmax回归将所有手势所对应的SVM输出值进行融合,用于在多个手势及困难背景之间进行多类分类以进一步降低混淆率率和误检率。另外,针对多类手势检测问题中效率低混效率高的问题,还提出了一种级联的Softmax检测框架,不仅可以有效提高检测效率、减少手势间的混淆,而且形式更简洁,训练更方便。在一个复杂的静态手势数据集上的实验证明了,所提出的SVM+LR方案、和级联Softmax方案的有效性。