论文部分内容阅读
基于图像的人体检测与理解是当前计算机视觉与模式识别领域研究的一个热门方向,在视频检索、智能安全驾驶、智能机器人和视频监控等领域有着广泛的应用前景与巨大的市场需求。人体由于自身的非刚性和所处环境的多样性,使其在图像理解过程中存在很大的挑战。最近该领域的研究取得了一些进展,但仍然存在一些急需解决的问题。自然图像中的人受各种姿态、光照条件变化与遮挡的影响,使得人体的检测尤为困难。此外在定位人的位置后,如何分析其姿态信息,推断其行为意图是一个高层图像理解问题,当前仍然是一个开放的课题,对神经认知学,视觉心理学与生理学的研究提供重要启示。本文围绕“图像中的人在做什么”这个问题,研究如何在静态图片中检测人,分析其姿态信息,推断其行为意图。本文工作主要针对以上问题,提出解决方案,所有工作总结如下:
(1)基于Boosting的实时目标检测框架中,当分类器后期应付“困难样本”时,需要组合很多弱分类器,大大增加了计算量,且性能提升较小。这个现象表明后期选择的弱分类器判别能力较弱,不能很好的区分正负样本。此外当前使用的特征描述子,忽略了样本自身固有的分布信息,而这些信息能够有效的提高特征的判别能力。针对以上问题,本文提出了一种自适应投影分块局部二进制模式特征,该特征利用机器学习的方法从训练样本中学习正负样本的分布信息并融入特征描述子,从而提高分类器的判别能力。实验结果表明,本文提出的三种自适应投影MBLBP,MBCT与MBCSLBP特征可以提高检测器训练的收敛速度,同时也提高了检测器的精度与运行速度。
(2)基于监督学习框架下的人体检测包含了一个隐式假设:所有训练样本的标记都是正确的并且检测器在这些标记区域具有最大的响应值。然而现实情况下,由于人体姿态变化,存在遮挡等外部因素,这个假设条件并不成立。此外当前的人体检测方法着重考虑人体的轮廓形状特征,而忽略了具有辅助信息的异质特征,如:纹理特征。针对以上两个问题,本文提出了一种在多示例学习框架下的Gentle MILBoosting算法与一种增强型可变尺度HOG-CSLBP特征。前者可以有效的处理样本的“误匹配问题”,而后者通过利用异质特征的互补性有效的提高检测率,降低误判率。实验结果表明本文提出的方法检测效率优于经典的HOG特征,且速度上可以实现实时检测。
(3)基于Pictorial结构框架下的人体姿态估计分为两大部分:人体部件的定位与整合部件信息的模型推理。人体部件的定位精度对姿态估计有直接的影响,尤其是在低质图像条件或出现遮挡情况时,某些“弱证据”部件会在部件定位阶段被盲目的修剪掉,从而降低部件定位的精度。此外当前的模型推理是基于部件树结构进行整体推理,运行效率不高。针对以上两个问题,本文提出了一种基于多示例学习框架下的部件检测方法与一种子图修剪策略,提高部件定位精度与模型推理效率。实验结果表明,本文提出的方法可以提高部件的检测精度,同时也提高了模型推理速度。
(4)基于经典的视觉词典框架,码元的表示缺乏语义信息,不能进行有效的知识迁徙,此外字典的学习通常使用简单的聚类算法,缺乏确凿的理论依据。针对这些问题,本文基于语义属性表示码元与基于稀疏表示理论的稀疏字典学习方法,提出了一种融入背景上下文信息的行为分类算法。该方法可以有效利用样本的背景上下文信息,减少语义属性的歧义性。实验结果表明该算法在一定程度上可以提高行为分类的精度。