基于视觉的室内机器人环境感知与理解关键技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户：huhu029

【摘要】

：

【作者】

：

罗皓楠

【机构】

：

南京理工大学

【出处】

：

南京理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着我国人均寿命的提升以及生育率的下降,老龄人口的抚养困境已成为不可忽视的社会问题。室内服务机器人可以为解决这一困境提供有效方案,同时还能为正常人的家庭生活带来便利,从而满足人们对于美好生活的追求。室内机器人环境感知与理解任务的核心是感知并解析视觉传感器捕捉到的场景视觉特征,从而使机器人可以有效理解诸如周遭物品的位置与类别、候选的可通行区域等环境信息,并遂行相应基于视觉的推理和导航动作。现今室内服务机器人研究面临的部分关键挑战包括:第一,机器人从环境中直接捕获的底层图像信息与人类可理解的高层语义信息间存在鸿沟,为了更好的完成用户下达的任务,室内机器人环境感知与理解系统应具备场景分割语义信息提取与利用能力。第二,标签噪声在室内服务机器人的实际应用过程中不可避免,在机器人不断运行的过程中,噪声所造成的累计误差将变得难以承受,因此针对于室内机器人环境感知与理解系统的噪声鲁棒算法亟待开发。第三,室内机器人系统运行于三维空间,但考虑到二维平面相机的高效性和廉价性,现有室内机器人系统往往不配备昂贵的三维全景扫描设备。三维场景信息的缺失将导致系统无法具备空间位置判断和避障能力。基于上述挑战,本文拟以提高室内服务机器人遂行任务时的准确度和稳定性为出发点,研究具有多种场景视觉特征处理功能的高智能化室内服务机器人所涉及的若干关键技术。本文将任务分解为视觉推理和机器人导航两部分,通过对环境彩色图像特征、场景语义分割特征、三维空间特征等视觉特征的融合与利用,展开对以上问题的研究。具体的研究内容和成果包括以下几个方面:（1）提出一种可适用于室内机器人环境感知与理解任务的快速场景语义分割框架,用以感知场景内物体的像素级语义标签,从而缩短系统底层视觉输入与所寻求目标之间存在的鸿沟。在构建过程中,为解决语义分割过程耗时过长的问题,提出一种基于子区域分块的双分支算法以最大限度减少非必要的时间损耗。该算法通过将环境输入图像分块的方式,对不同复杂度的子区域采取不同的语义分割策略。首先将当前帧图像与其对应关键帧图像均等分为若干子区域,并将它们进行配对。提取每个子区域对的光流,而后构建决策网络,根据光流信息判断子区域需要采用的分割策略,并将这些子区域送入不同的通道进行处理。最后将各子区域的分割结果拼接起来,完成对当前帧的语义分割。与传统图像语义分割算法相比较,该框架在分割准确率（mIoU）仅降低0.7%的情况下,将分割速度大幅提升到了57FPS。（2）提出一种基于同伴学习的层次式样本选择算法作为系统的预处理环节,通过滤除数据集中含有噪声的标签,使本文其他章节方法免于噪声问题的困扰。首先构建了两个平行的网络分支,每个分支通过交换小误差样本集来达到过滤视觉推理过程中噪声样本的目的。对于机器人导航子算法,设计了一种层次式的鲁棒学习网络,该网络可以在路径和动作两个粒度上进行噪声选择,从而更精细的滤除标签噪声,以最大限度保留有效训练样本。对于系统级联合噪声学习方面,将视觉推理与机器人导航两模型首尾连接起来,以视觉推理的有效样本标签作为输入,同时冻结视觉推理模型参数,使用强化学习的方法在整个室内机器人系统层级上进行鲁棒训练。（3）提出一种基于场景语义分割的视觉注意力机制,该机制利用提取的场景语义分割图作为场景高级语义信息与环境输入特征进行有机融合,使得模型可以将注意力更多的关注于目标语义相关的图像区域。首先通过语义分割掩码的指导将图像分解为多个不同的子区域,而后使用卷积神经网络编码这些子区域的特征,并使用这些子区域特征来构建基于分割的视觉注意力模型。接着在机器人导航子算法中,利用场景语义分割信息辅助机器人导航模型的训练。最后,使用强化学习算法对整个系统的参数进行调整。（4）提出一种基于深度与分割联合注意力的视觉推理和机器人导航算法,该方法将感知到的当前环境语义分割和场景深度信息作为系统辅助输入,在提高局部特征可辨识度的同时增加了三维空间感知能力,使得构建的室内机器人环境感知与理解系统可以更好的在相对复杂的三维环境中进行探索。首先将输入的深度图编码为三通道特征,而后在分割掩码的指导下,深度图特征与彩色图像特征分别被分解为不同的子区域,我们使用这些子区域特征来构建基于深度与分割联合注意力的视觉推理模型。接着在机器人导航子算法中,本文将语义分割信息与场景深度信息进行有机融合,共同指导机器人导航模型的训练过程。最后,一种基于强化学习的联合训练机制被用来在系统级调整模型参数。通过上述研究工作的开展,本文提出基于视觉的室内机器人环境感知与理解任务涉及的若干关键算法,通过详尽的对比实验验证了本文提出各算法的有效性,未来这些算法有望被应用于真实的室内机器人系统中。

其他文献

一种时间序列数据挖掘方法及系统

期刊

强腐作用下钢—混组合梁中PBL剪力连接件力学性能研究

近几年来,钢-混组合梁桥以自重轻、施工快和受力性能优良在工程中被广泛使用。随着我国经济的不断发展,车流量的增加与化学类物品使用量的增加,危化物运输车发生交通事故的概率大大增加,一旦发生交通事故,危化物就会对桥梁产生损害。为了能够及时有效的应对交通事故的后续处理,本文对强腐作用于钢-混组合梁桥后力学性能进行研究。在国内外的研究中,对钢-混组合梁的研究主要以栓钉剪力连接件受锈蚀为主,对PBL剪力连接件

学位

巨厚钢板混凝土剪力墙抗震性能研究

巨厚双钢板混凝土组合剪力墙目前应用于核电站屏蔽厂房核安全壳结构中,是屏蔽厂房的重要组成部分,因此深入研究巨厚双钢板混凝土剪力墙的抗震性能对于提高核安全壳内部设备的安全性具有重要意义。巨厚双钢板混凝土剪力墙与应用普通超高层建筑中钢板混凝土剪力墙结构不同,相比普通组合剪力墙结构其混凝土厚度一般为1m左右,钢板厚度与混凝土厚度之比是普通钢板混凝土组合剪力墙的3-5倍,因此其受力性能更为复杂。目前应用于普

学位

可视化与FibroScan瞬时弹性成像诊断慢性乙型肝炎肝纤维化程度的相关性

目的探讨可视化瞬时弹性成像（Vi TE）与FibroScan瞬时弹性成像（FibroScan）诊断慢性乙型肝炎（慢乙肝）肝纤维化程度的相关性。方法 66例慢乙肝患者根据肝穿刺活检结果判断是否存在肝纤维化，均用Vi TE和FibroScan检测肝硬度值。结果肝纤维化组ViTE与FibroScan测定的肝硬度值高于无肝纤维化组（P＜0.05）。Pearson相关分析显示ViTE与FibroScan

期刊

目的论视角下《路遥传》（节选）汉英翻译实践报告

本篇报告选取了厚夫先生创作的《路遥传》（第八章、第九章）作为源文本进行汉英翻译实践。节选章节详尽阐述了中国当代作家路遥创作《平凡的世界》的历程,为读者展现了一个生动鲜明的人物形象及其文学创作精神。鉴于传记的真实性与文学性特征,笔者以德国功能派提出的目的论作为理论指导,结合目的原则、连贯原则和忠实原则来选择合适的翻译策略。在此次翻译过程中,笔者从词汇和句法层面对所遇到的困难进行了梳理。在词汇层面,主

学位

装甲目标多元红外信息感知与处理研究

战场中敌方大规模装甲集群以其强大的作战能力和灵活的机动性为我方防御体系构成了严重威胁,研究和发展以末敏弹为代表的智能弹药是应对这一威胁的有效途径之一。末敏弹的末端敏感探测系统是实现对地面装甲目标探测与识别的关键部位,本文研究一种多元红外目标探测与识别方法,对于提高探测系统的探测效率和目标识别率都具有重要意义。论文建立了末敏子弹多元红外稳态扫描模型,以七元红外稳态扫描模型为对象,针对扫描过程中出现的

学位

唾液胃蛋白酶对胃食管反流病诊断的研究进展

胃食管反流病（gastroesophageal reflux disease,GERD）是一种临床常见病，患病率在不同国家或地区差异较大，我国GERD患病率有逐年上升趋势。目前GERD的诊断方法主要包括质子泵抑制剂（proton pump inhibitors,PPIs）诊断性治疗、调查问卷法和24 h食管pH-阻抗监测（24 hours pH and multichannel intralumi

期刊

三苯胺类p-型光敏染料的密度泛函理论研究

利用和发展绿色、可再生的太阳能是解决能源需求和化石燃料燃烧带来的环境问题的重要手段。染料敏化太阳能电池（DSSCs）作为新一代的太阳能电池,由于其具有环境友好性和制作成本低等特点受到广泛关注。但两极敏化的pn-型DSSCs的发展受到p-型DSSCs光电转化效率低的限制。非金属三苯胺类染料被发现有较好的光电转换效率,其是一类性能优良的供电子基团,且其具有的非平面结构特点能降低染料相互团聚现象。本文设

学位

脉冲噪声下对偶序列跳频信号随机共振检测方法研究

军用用频装备、民用电气化设施设备的广泛应用,战场无处不在的主动、恶意干扰等因素造成战场电磁环境非常复杂,研究一种抗强干扰、适应极恶劣电磁环境条件的通信手段非常必要。对偶序列跳频（Dual Sequence Frequency Hopping,DSFH）提供了一种“信道表示消息”的通信方式,可基于先验知识对低信噪比通信信号进行有效处理,抗干扰能力强。而随机共振作为非线性处理领域的新兴技术,能够利用噪

学位

混沌调相线性调频复合体制引信抗干扰技术研究

无线电引信作为军事科学的重要发明,在现代战争中的地位越来越高。而随着电子技术的飞速发展,引信工作时正面临着越来越复杂的干扰环境。如何进一步增强引信的抗干扰能力,提高引信的工作性能是当今引信界最为关注的问题之一。本文构建了一种混沌调相线性调频复合体制引信,针对此体制引信的工作机理及其抗干扰方法进行了深入研究。论文的主要工作包含以下几个方面:1、利用混沌码序列无模糊距离,抗干扰、抗截获能力强等特征,使

学位

基于视觉的室内机器人环境感知与理解关键技术研究

与本文相关的学术论文