论文部分内容阅读
近年来,随着我国人均寿命的提升以及生育率的下降,老龄人口的抚养困境已成为不可忽视的社会问题。室内服务机器人可以为解决这一困境提供有效方案,同时还能为正常人的家庭生活带来便利,从而满足人们对于美好生活的追求。室内机器人环境感知与理解任务的核心是感知并解析视觉传感器捕捉到的场景视觉特征,从而使机器人可以有效理解诸如周遭物品的位置与类别、候选的可通行区域等环境信息,并遂行相应基于视觉的推理和导航动作。现今室内服务机器人研究面临的部分关键挑战包括:第一,机器人从环境中直接捕获的底层图像信息与人类可理解的高层语义信息间存在鸿沟,为了更好的完成用户下达的任务,室内机器人环境感知与理解系统应具备场景分割语义信息提取与利用能力。第二,标签噪声在室内服务机器人的实际应用过程中不可避免,在机器人不断运行的过程中,噪声所造成的累计误差将变得难以承受,因此针对于室内机器人环境感知与理解系统的噪声鲁棒算法亟待开发。第三,室内机器人系统运行于三维空间,但考虑到二维平面相机的高效性和廉价性,现有室内机器人系统往往不配备昂贵的三维全景扫描设备。三维场景信息的缺失将导致系统无法具备空间位置判断和避障能力。基于上述挑战,本文拟以提高室内服务机器人遂行任务时的准确度和稳定性为出发点,研究具有多种场景视觉特征处理功能的高智能化室内服务机器人所涉及的若干关键技术。本文将任务分解为视觉推理和机器人导航两部分,通过对环境彩色图像特征、场景语义分割特征、三维空间特征等视觉特征的融合与利用,展开对以上问题的研究。具体的研究内容和成果包括以下几个方面:(1)提出一种可适用于室内机器人环境感知与理解任务的快速场景语义分割框架,用以感知场景内物体的像素级语义标签,从而缩短系统底层视觉输入与所寻求目标之间存在的鸿沟。在构建过程中,为解决语义分割过程耗时过长的问题,提出一种基于子区域分块的双分支算法以最大限度减少非必要的时间损耗。该算法通过将环境输入图像分块的方式,对不同复杂度的子区域采取不同的语义分割策略。首先将当前帧图像与其对应关键帧图像均等分为若干子区域,并将它们进行配对。提取每个子区域对的光流,而后构建决策网络,根据光流信息判断子区域需要采用的分割策略,并将这些子区域送入不同的通道进行处理。最后将各子区域的分割结果拼接起来,完成对当前帧的语义分割。与传统图像语义分割算法相比较,该框架在分割准确率(mIoU)仅降低0.7%的情况下,将分割速度大幅提升到了57FPS。(2)提出一种基于同伴学习的层次式样本选择算法作为系统的预处理环节,通过滤除数据集中含有噪声的标签,使本文其他章节方法免于噪声问题的困扰。首先构建了两个平行的网络分支,每个分支通过交换小误差样本集来达到过滤视觉推理过程中噪声样本的目的。对于机器人导航子算法,设计了一种层次式的鲁棒学习网络,该网络可以在路径和动作两个粒度上进行噪声选择,从而更精细的滤除标签噪声,以最大限度保留有效训练样本。对于系统级联合噪声学习方面,将视觉推理与机器人导航两模型首尾连接起来,以视觉推理的有效样本标签作为输入,同时冻结视觉推理模型参数,使用强化学习的方法在整个室内机器人系统层级上进行鲁棒训练。(3)提出一种基于场景语义分割的视觉注意力机制,该机制利用提取的场景语义分割图作为场景高级语义信息与环境输入特征进行有机融合,使得模型可以将注意力更多的关注于目标语义相关的图像区域。首先通过语义分割掩码的指导将图像分解为多个不同的子区域,而后使用卷积神经网络编码这些子区域的特征,并使用这些子区域特征来构建基于分割的视觉注意力模型。接着在机器人导航子算法中,利用场景语义分割信息辅助机器人导航模型的训练。最后,使用强化学习算法对整个系统的参数进行调整。(4)提出一种基于深度与分割联合注意力的视觉推理和机器人导航算法,该方法将感知到的当前环境语义分割和场景深度信息作为系统辅助输入,在提高局部特征可辨识度的同时增加了三维空间感知能力,使得构建的室内机器人环境感知与理解系统可以更好的在相对复杂的三维环境中进行探索。首先将输入的深度图编码为三通道特征,而后在分割掩码的指导下,深度图特征与彩色图像特征分别被分解为不同的子区域,我们使用这些子区域特征来构建基于深度与分割联合注意力的视觉推理模型。接着在机器人导航子算法中,本文将语义分割信息与场景深度信息进行有机融合,共同指导机器人导航模型的训练过程。最后,一种基于强化学习的联合训练机制被用来在系统级调整模型参数。通过上述研究工作的开展,本文提出基于视觉的室内机器人环境感知与理解任务涉及的若干关键算法,通过详尽的对比实验验证了本文提出各算法的有效性,未来这些算法有望被应用于真实的室内机器人系统中。