论文部分内容阅读
视频图像中的运动目标跟踪是指在视频图像中搜寻特定运动目标的位置来实现运动目标的自动跟踪。运动目标跟踪技术一直是计算机视觉领域中的一个重要研究方向,已广泛应用于虚拟现实、工业控制、军事设备、医学检测、视频监控和智能交通等多个领域。在运动目标的跟踪技术中,基于单目视频的目标三维运动跟踪方法是一种较新的运动目标跟踪方法,它具有方法简单、运行速度快和应用范围广等诸多优点,已成为当前运动目标跟踪技术中的一个研究热点。目前在基于单目视频的目标运动跟踪技术中,大多数研究工作都是基于目标的二维运动信息而展开的,虽然理论研究相对比较成熟,但是仍然存在一些尚未解决的技术难题。如:目标的二维跟踪方法中由于图像信息量的缺乏,在一些需要目标的三维运动信息的应用场景(例如,互动娱乐需要人体或人手的三维运动姿态)下显得无能为力;另外,在目标的二维运动跟踪方法中,由于单目视频下图像信息容易丢失,也使得恢复图像目标的三维运动姿态更具有挑战性。因此,研究单目视频中目标的三维运动跟踪方法具有重要的现实意义。本文对基于单目视频的目标三维运动跟踪方法进行了系统的分析和研究,重点对与单目视频中的目标三维运动跟踪方法紧密相关的柱状三维模型构建方法、射影变换无关性特征提取方法和基于重建三维模型的目标三维运动跟踪方法等三个关键技术问题进行了深入研究。论文的主要研究工作和取得的创新成果如下:(1)提出了一种在线构建目标三维柱状模型(Three-Dimensional Columnar Model of Target,TDCMT)的方法,并在此基础上实现了目标三维运动跟踪。TDCMT方法的主要思想是:首先建立摄像机投影模型,该模型由一个比例因子确定;然后建立了该比例因子及目标外观模型优化目标函数,并采用Levenberg-Marquardt算法对该目标函数进行求解;最后在已构建的目标外观模型基础上给出了基于模型的目标三维运动姿态跟踪算法。与传统的手工标识目标外观模型相比,该方法构建的目标模型更精确。(2)提出了一种具有射影变换无关性(Projective Transformation Invariance,PTI)的特征提取算法,该算法能够提高特征匹配的精度及匹配数量。PTI算法的基本思想是:根据摄像机投影过程来恢复特征点描述子采样真实区域,从而达到消除由于视点变化对特征提取造成的不良影响。具体过程是:根据上一帧跟踪结果在透视投影模型下将特征的原采样区域投影到当前帧下,从而获得当前帧中特征的采样区域,为了消除目标快速移动对采样区域的影响,PTI中使用了一个迭代优化算法来进一步求精。PTI算法的主要创新之处是:首先提出了一种鲁棒性更强的SIFT描述子的构建方法,由于是在透视投影下将模型进行投影得到特征描述子的采样区域,因此特征具有视点变换无关性,匹配的特征数量更多;其次是在姿态提取中加入了平滑因子,该平滑因子作为一个惩罚因子可以过滤掉由于遮挡等原因产生的外点数据。因此,PTI算法提高了特征匹配的精度及匹配数量。(3)提出了一种基于重建三维模型(Reconstructed Three-Dimensional Model,RTDM)的目标三维运动跟踪方法。RTDM方法首先由被跟踪目标的前几帧通过Structure From Motion(SFM)算法重建出被跟踪目标的三维模型;其次,为了使得重建的模型更精确,RTDM算法中又增加了背景点去除、可用于模型重建的帧校验和稠密三维模型重建这三个步骤;最后,在后序帧中采用了Extended Kalman Filter(EKF)方法对目标进行三维运动跟踪。相比较于传统方法,因为RTDM跟踪方法中的三维模型不需要事先采用3D扫描仪进行模型构建或者采用几何模型近似目标三维模型,所以目标三维运动跟踪速度非常快、使用也很方便。而且由于采用了基于视觉的方法进行模型重建,所以重建后的模型精度很高,从而使得目标的跟踪效果更好。