论文部分内容阅读
随着移动设备的不断普及和互联网的持续发展,以图像为载体的信息交流方式越来越普遍。如何能够自动理解拍摄图像传达的语义信息是人们实际且迫切的需求。图像识别作为解决这类问题不可或缺的手段,主要关心如何对图像中的物体及对其所处的场景进行分析判断。通常,物体识别包括个体识别、次级类别识别以及类别间的识别,而场景识别(又称为场景分类)则是根据图像内容给出其代表的语义标签(如山脉、海岸线等),可为物体识别等任务提供有效的上下文信息。为解决这两类模式识别问题,本文从对图像识别系统关键模块的现状分析出发,重点研究了特征设计中的多尺度信息和方法论中的正则化手段在图像光照预处理、人脸性别识别、物体识别和场景识别中的应用。首先,针对光照条件对图像识别的影响,本文考虑解决光源变化带来的图像颜色漂移问题,以达到色彩恒常目的。目前,不存在任何一种通用的单个色彩恒常算法能适用于不同纹理特性的图像。为此,提出一种基于纹理金字塔特征匹配和正则化局部回归(TPM RLR)的色彩恒常算法来融合单个算法的光照估计结果。TPM RLR算法结合多尺度表达构建纹理金字塔,并利用威布尔分布参数提取图像的纹理特征。然后,根据自定义的图像相似性测度查找到与待校正图像纹理最相似的参考图像集。在融合阶段,综合基于先验知识的方法与基于数据驱动方法的优点,在lαβ对立色彩空间内采用正则化局部回归合并单个算法。在两个自然图像数据集上的实验结果表明,TPM RLR融合算法能显著提高光照估计的准确度,其角度误差中值比单个算法至少降低了29%,同时其校正效果在主观和客观评价上均优于现有的融合算法。其次,以人脸这种特殊物体为研究对象,讨论了基于人脸的性别识别问题。首先,提出一种基于多尺度学习模式(MSLP)的人脸特征,该特征通过不同方法PCA/ICA/K-means学习得到多尺度卷积模板,然后对卷积后的图像按照响应强度顺序进行编码,从而形成一个紧凑且具有较高鉴别力的直方图特征来描述人脸。鉴于线性表达分类器(LinearRC)在人脸识别中的成功应用,同时又考虑到性别识别和人脸识别在数据分布上的差异,系统分析了LinearRC在性别识别上的应用。另外,从原型生成的角度出发,提出一种基于偏最小二乘的线性表达分类器(LRC PLS)及其群组分类器。在人脸性别识别上的大量实验证明,MSLP特征明显优于人工设计特征,LRC PLS较其他线性表达分类器性能稳定、耗时较短,且其群组分类器可进一步提高识别精度。鉴于原型概念在性别识别中的成功应用,从字典学习角度出发,进而提出一种基于多尺度查询图像扩展的协同表达分类器(QCRC CP),以解决较复杂环境下的物体识别问题(即处理多姿态的、多视角的、更一般化等情况下的物体识别)。QCRC CP先将单张查询图像通过放缩扩展成一个查询集,并利用典型相关分析生成与查询集最相关的一组类原型作为每一类的字典原子。这种字典构造方法结合以往原型选择方法与原型生成方法的优点,利用数据局部性剔除掉噪声,生成与查询样本相关且最能代表该类别的原型集。最后,在新构造的字典上,采用基于最小规范化残差的多变量协同表达分类器判定查询图像的类别。在多姿态人脸识别、树叶类别识别、字符识别和通用物体识别上的实验表明,QCRC CP分类器获得了令人满意的结果,且其字典构造方法优于基于原型选择和原型生成的字典学习算法。例如,QCRC CP在字符识别上的识别率比其他线性表达分类器提高了10%以上。最后,在场景识别中,考虑到合适的距离度量能有效反映高维空间中样本间的语义距离,提出一种基于正则化线性判别分析(RLDA)的全参数马氏距离度量学习算法。当训练样本数目少且特征维数高时,距离度量学习算法复杂度过高,且容易出现过拟合问题。为此,提出一种新的算法框架,即将度量学习的参数矩阵分解为一个射影矩阵与一个非负对角阵的乘积,从而可显著降低要估计的参数个数。首先,采用不同参数调制的RLDA生成一个射影向量集合。然后基于边信息,在构建的训练数据集上通过l2范数正则化的非负最小二乘对射影向量进行选择和加权。该训练集是由射影后的相似样本对子集与相异样本对子集中样本对的差向量平方组成。另外,为了保持训练库中两个子集样本数目的相对平衡,提出一种基于K近邻的简单却有效的策略。在两个场景图像集上的实验表明,所提方法较其他度量学习方法能够获得更好的场景识别效果,且运行速度是传统度量学习方法的几倍、甚至几十倍。