论文部分内容阅读
视觉对象检测与识别是计算机视觉要解决的核心问题,由于存在对象尺度与视角的变化、对象类别内部的形变(非刚体)、复杂背景与遮挡以及光线的变化等,使得视觉对象检测与识别任务极具挑战性。经过几十年的努力,随着计算机视觉与机器学习中相关技术的进步,视觉对象检测与识别技术也不断取得新进展,在包括国防、医疗、人机交互、图像提取与数据挖掘、工业与家用机器人、制造业、视觉监控与安全以及智能交通等应用领域得到广泛应用,并产生积极的影响。
在视觉对象检测与识别所涉及的众多研究内容中,本论文的研究工作主要集中在其中的三个方面:基于局部特征及其分布的图像分类方法、结合运动信息与表观特征的行人检测方法以及基于表观特征的目标人识别方法。取得的主要研究成果包括:
(一)提出两种基于局部特征分布的图像分类方法。(1)基于最大互信息的视觉词汇构造方法。该方法基于单高斯分布的KL距离计算分类特征与分类标签间的最大化互信息,并依据该互信息测量标准视觉词汇法中视觉单词的分类判别能力,进而完成视觉词汇的优化。在XEROX图像库上的分类实验表明,与标准视觉词汇法相比,该方法在分类准确率上有明显提高,在分类效率上也有一定提高;(2)基于概率签名特征的图像分类方法。该方法提出一种称为概率签名的图像特征及对应的图像分类算法。该方法对每一幅图像用高斯混合模型建模该图像局部特征的分布,以混合模型中各个模式的均值以及图像局部特征对相应模式的后验概率之和形成类似签名的图像特征,最终通过基于EMD核的SVM进行图像分类。该方法允许一个局部特征对多个聚类模式做出反映,能够编码更多判别信息并从视觉感知上捕捉更多的相似性。针对自然拍摄图像的分类实验表明,概率签名方法的平均分类准确率优于标准签名方法和标准视觉词汇法:
(二)提出一种生成模型与判别方法相融合的图像分类算法。该算法采用基于图像局部特征的高斯混合模型建立全局视觉词汇,用图像中所有特征对应不同的视觉单词的后验概率之和所形成的特征向量来描述图像,最后采用线性核SVM分类器进行分类。通过对不同视觉词汇模式后验概率的反馈,一个底层特征可对变换后特征的多个分量发生作用,达到了不同分类对象共享部分视觉词汇的目的。在分类训练过程中,通过合理地引入对象区域标注信息,使得这种融合方法能够有效地减少背景因素对分类的影响,进一步提高了分类性能。
(三)提出一种结合运动信息与表观特征的行人检测算法。该算法在对通过人体表观检测子获得的候选检测窗口执行分割验证的框架中,将运动信息融入到基于图像序列的对象分割算法中,通过获取更准确的分割结果来提高对候选检测窗口的检测准确率。该方法利用运动信息更新检测对象的前景分布模型,进而将颜色信息间接地融入行人检测中,并通过形状特征表现出来,与人体表观检测子形成互补的特性,获得更好的检测结果。在CAVIAR视频库和我们自己的测试视频中,该算法都取得了比同类其它两种检测算法更好的检测效果。
(四)在人体检测基础上提出了两种目标人体识别方法。(1)基于颜色不变性的人体识别算法。该算法设计了一种运动检测与颜色不变特征相结合的目标人体识别框架,提出了一种建立在颜色聚类之上颜色不变矩描述子,给出了基于该描述子的图像相似性度量公式,并通过实验验证了这种相似性度量的有效性。(2)基于谱图分析方法的目标人体识别算法。该方法建立在分割后的人体图像序列上,利用两个图像序列中人体对象的表观相似性建立全连接图,构造概率转移矩阵,通过谱图分析计算人体图像在低维内嵌空间的映射,进而通过分析图像序列中人体图像在内嵌空间的分布确定两个序列的相似度,并据此提出了基于聚类准则函数的图像序列相似度测量方法。该方法在一定程度上消除了由于视角变化以及部分遮挡对识别的不利影响,实验结果显示,该方法的识别效果好于同类方法中基于质心距离的相似度测量方法。