论文部分内容阅读
对现实世界的有效感知是计算机视觉的长期努力方向,也是当前以视觉为基础的下一代人机交互的重要基础。现代计算机视觉技术可以为日常对象成功地标识语义标签,并可以在大型复杂场景重建对应空间信息的稠密深度图。然而,针对视野内物理场景的同时语义和空间统一理解仍然是一个具有挑战性的问题,也成为服务并赋能视觉人机交互(XR)的下一代人工智能技术的核心里程碑。当前,我们正寻求一种对周围世界理解和数字重建的创新能力,其中比较有代表意义的新兴领域是基于深度神经网络的"语义及空间尺度协同感知"。本文总结了当前基于深度神经网