论文部分内容阅读
随着信息技术的发展,增强现实(AugmentedReality,AR)技术近年来成为计算机视觉、计算机图形学领域的研究热点。增强现实是指在现实场景图像中叠加虚拟信息或物体,使得虚拟物体与现实场景融合,以增强人们对现实环境的感知与交互体验。目前,增强现实技术存在三个方面的技术难点:如何实现稳定精确的虚拟物体三维注册;如何提高虚拟物体与现实场景的融合真实度;如何进行自然的人机交互。同时定位与建图(SimultaneousLocalizationandMapping,SLAM)技术是三维注册技术中一种较为自然的方法,相比于在机器人领域的应用,增强现实应用中摄像机运动更快、自由度更大,环境纹理及几何结构更复杂,一些传统的SLAM算法会出现较为严重的追踪漂移、追踪丢失、误差累积等问题,更稳定的三维注册需求对SLAM算法的鲁棒性和精度都提出了更高的要求。此外,在现有的增强现实系统中,虚拟物体的注册位置会随系统的初始位姿变化或者依赖于人工标识,而如果希望自然地在已知场景中的绝对固定位置放置虚拟物体,就依赖于离线重定位技术,但现有的重定位算法都是在线实现的,且在精度和稳定性上都无法满足要求。最后,目前大多数的增强现实系统都仅仅是将虚拟物体与现实场景进行简单的叠加,缺少虚实物体的互遮挡,导致合成图像的视觉错乱,同时缺乏用户与虚拟物体间的人机交互。近年来,低成本RGB-D摄像机普及给增强现实技术的发展带来了新的契机。由于其提供了场景深度图,无论是在SLAM技术中的尺度漂移、地图构建,还是在虚实物体的融合以及人机交互方面都更具优势。本文围绕前面分析的几个技术难点,研究了基于RGB-D摄像机的增强现实系统中的关键技术,提出了 一种新的基于Frame-to-Model的SLAM系统框架,称之为FTM-SLAM,并在此基础上实现了 一套用户能够直接用手触控的增强现实人机交互系统。主要创新点和贡献总结如下:1.在FTM-SLAM框架中的视觉里程计部分,为了提高三维注册技术在快速运动条件下的鲁棒性以及不同环境下的自适应性,本文提出了一种RGB-D图像稠密匹配方法。该方法不需要提取特征点,而是将RGB-D图像与场景局部模型进行稠密匹配,直接构建耦合了稠密的ICP(IterativeClosestPoint)残差与彩色残差的能量方程。同时,针对局部模型的稀疏性特点,设计了面向GPU并行算法的八叉树森林结构,在减少存储资源消耗的同时提高了算法速度。2.在FTM-SLAM框架中的后端优化部分,针对摄像机长时间运动的误差累积问题,本文提出了一种基于Frame-to-Model的后端全局优化方法。基于ORB(Oriented FAST andRotatedBRIEF)二值特征构建的视觉词袋树和模型配准约束,提出了基于局部模型的多级一致性检验方法实现了快速准确的闭环检测。为了进行全局轨迹优化,本文构建了一种模型-位姿图(Graph),图中不仅包含摄像机位姿节点,还将局部模型的位姿加入图中,这样在优化时能够同时保持模型与摄像机以及不同工作区之间的局部几何约束。3.本文提出了一种基于回归森林的摄像机重定位算法,能够同时对已知场景中单帧RGB-D图像和单帧RGB图像进行摄像机6自由度精确位姿估计。与传统的基于图像或者稀疏特征点的方法不同,该算法无需提取特征点,而是通过回归的方法来解决摄像机重定位问题。算法能够同时适应稠密和稀疏计算,从而适应不同的场景环境。本文提出的具有旋转不变性的二值特征响应函数,对于与训练集中图像有较大旋转差异的待测帧具有较好的鲁棒性,提出的各向异性的高斯模型能够更好的拟合样本的空间分布。