基于表观特征视觉对象检测与识别技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:CDCBB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉对象检测与识别是计算机视觉要解决的核心问题,由于存在对象尺度与视角的变化、对象类别内部的形变(非刚体)、复杂背景与遮挡以及光线的变化等,使得视觉对象检测与识别任务极具挑战性。经过几十年的努力,随着计算机视觉与机器学习中相关技术的进步,视觉对象检测与识别技术也不断取得新进展,在包括国防、医疗、人机交互、图像提取与数据挖掘、工业与家用机器人、制造业、视觉监控与安全以及智能交通等应用领域得到广泛应用,并产生积极的影响。   在视觉对象检测与识别所涉及的众多研究内容中,本论文的研究工作主要集中在其中的三个方面:基于局部特征及其分布的图像分类方法、结合运动信息与表观特征的行人检测方法以及基于表观特征的目标人识别方法。取得的主要研究成果包括:   (一)提出两种基于局部特征分布的图像分类方法。(1)基于最大互信息的视觉词汇构造方法。该方法基于单高斯分布的KL距离计算分类特征与分类标签间的最大化互信息,并依据该互信息测量标准视觉词汇法中视觉单词的分类判别能力,进而完成视觉词汇的优化。在XEROX图像库上的分类实验表明,与标准视觉词汇法相比,该方法在分类准确率上有明显提高,在分类效率上也有一定提高;(2)基于概率签名特征的图像分类方法。该方法提出一种称为概率签名的图像特征及对应的图像分类算法。该方法对每一幅图像用高斯混合模型建模该图像局部特征的分布,以混合模型中各个模式的均值以及图像局部特征对相应模式的后验概率之和形成类似签名的图像特征,最终通过基于EMD核的SVM进行图像分类。该方法允许一个局部特征对多个聚类模式做出反映,能够编码更多判别信息并从视觉感知上捕捉更多的相似性。针对自然拍摄图像的分类实验表明,概率签名方法的平均分类准确率优于标准签名方法和标准视觉词汇法:   (二)提出一种生成模型与判别方法相融合的图像分类算法。该算法采用基于图像局部特征的高斯混合模型建立全局视觉词汇,用图像中所有特征对应不同的视觉单词的后验概率之和所形成的特征向量来描述图像,最后采用线性核SVM分类器进行分类。通过对不同视觉词汇模式后验概率的反馈,一个底层特征可对变换后特征的多个分量发生作用,达到了不同分类对象共享部分视觉词汇的目的。在分类训练过程中,通过合理地引入对象区域标注信息,使得这种融合方法能够有效地减少背景因素对分类的影响,进一步提高了分类性能。   (三)提出一种结合运动信息与表观特征的行人检测算法。该算法在对通过人体表观检测子获得的候选检测窗口执行分割验证的框架中,将运动信息融入到基于图像序列的对象分割算法中,通过获取更准确的分割结果来提高对候选检测窗口的检测准确率。该方法利用运动信息更新检测对象的前景分布模型,进而将颜色信息间接地融入行人检测中,并通过形状特征表现出来,与人体表观检测子形成互补的特性,获得更好的检测结果。在CAVIAR视频库和我们自己的测试视频中,该算法都取得了比同类其它两种检测算法更好的检测效果。   (四)在人体检测基础上提出了两种目标人体识别方法。(1)基于颜色不变性的人体识别算法。该算法设计了一种运动检测与颜色不变特征相结合的目标人体识别框架,提出了一种建立在颜色聚类之上颜色不变矩描述子,给出了基于该描述子的图像相似性度量公式,并通过实验验证了这种相似性度量的有效性。(2)基于谱图分析方法的目标人体识别算法。该方法建立在分割后的人体图像序列上,利用两个图像序列中人体对象的表观相似性建立全连接图,构造概率转移矩阵,通过谱图分析计算人体图像在低维内嵌空间的映射,进而通过分析图像序列中人体图像在内嵌空间的分布确定两个序列的相似度,并据此提出了基于聚类准则函数的图像序列相似度测量方法。该方法在一定程度上消除了由于视角变化以及部分遮挡对识别的不利影响,实验结果显示,该方法的识别效果好于同类方法中基于质心距离的相似度测量方法。
其他文献
随着石油物探数据采集量的高速增长,石油物探数据处理的I/O性能逐渐成为系统的瓶颈。由于当前行业内主要使用NFS(Network File System)文件系统来存储数据,所以NFS服务器的性能
火焰动画是以计算机技术为核心,结合相关科学知识,重现自然界中的火焰现象,同时加以一定的艺术创作,生成用户满意的视觉效果。经过多年的发展,火焰动画生成技术已广泛应用于虚拟现
目前,虚拟化技术正在高速发展,该技术已在服务器整合、集群计算、配置多操作系统以及内核开发等很多领域得到广泛应用,并且虚拟化技术已经向个人计算机方向发展。而个人计算机的
随着半导体工艺技术的进步,面向多核和众核处理器的设计方法逐渐成为学术界和工业界研究热点。然而,由于众核处理器芯片结构复杂,编程环境复杂,同时应用程序的优化策略相互影响,因
从视频中跟踪三维人体运动在智能人机交互、视频监控、影视动漫、医疗康复等领域有着重要的应用,是计算机视觉领域的一个研究热点。由于人体运动比较复杂,视频信息不充分并且包
面对飞速增长的流媒体信息处理,高性能计算,网络应用的全球化的需求,用户需要芯片能提供更高的计算性能。而要提供更高的计算性能,就需要在芯片内集成大量的处理器核。根据ITRS的
随着“平安城市”等计划的实施,视频监控系统将逐渐覆盖各种重要场合,生成的监控数据也会成千上万倍的增加。以人眼观看为主的监控视频分析已经不能满足这种海量数据的需求。因
随着光学三维测量技术、数据获取处理方式和计算机CAD/CAM技术的发展,人类进入了信息数字化时代。实现脚型测量的数字化顺应了时代潮流满足了人类日益增长的需求。   本文
曙光6000高效能计算机系统是面向千万亿次计算的超级计算机系统,采用HPP体系结构,计算节点间采用Infiniband网络和专用集合通信网络进行通信。曙光6000集合通信芯片是集合通信
电子断层成像技术能够在纳米尺度下重构出不具有全同性的细胞或生物大分子的三维结构,正受到越来越广泛的重视。本文围绕电子断层成像技术中投影图像对位算法、三维重构结果质