无人系统智能室内视觉语言导航算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:abcdewwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过语言指导机器人完成通用性任务是人工智能领域的重要研究课题之一。近年来,越来越多的学者试图将计算机视觉与自然语言处理领域的相关技术相结合来实现这一目标,视觉语言导航(Vision-and-Language Navigation,VLN)是其中的核心问题。本课题源自于科研“手势-眼动联合操控小型无人系统XX应用研究”项目,该项目主要研究未来智能人机交互、人机协同的方式方法,本文针对其中的无人系统智能室内视觉语言导航算法展开研究,主要研究内容和结果如下:(1)为了解决无搜索策略的VLN算法中存在的导航准确率低与泛化能力弱的问题,本文提出了一种基于余弦相似的视觉语言导航算法。通过增加余弦相似损失函数来指导神经网络学习预测导航方向,减小了特征空间中类内特征的差异,增大了类间特征分布,提升了模型的导航准确率。同时提出了一种全景视图特征平滑方法来进行数据增强,提升了模型的泛化性能。(2)针对基于搜索策略的VLN算法中主要存在的两个问题:第一,搜索策略需要在环境中进行大量无用探索,不符合实际应用;第二,算法中使用的视觉语言匹配评估模型,仅利用正确路径的信息进行参数训练,没有采用错误路径信息进行对比训练,精度和鲁棒性较差。本文首先构建了一种全局归一化训练策略,为导航策略和全局评估模型提供更全面的训练方法;其次将跨模态特征相似度引入到视觉语言匹配评估模型中,使视觉特征和语言特征尽可能相似;在以上两方面的基础上,设计了一种全新的导航框架,将增强学习训练策略和全局归一化训练策略相结合,实现了更优的VLN算法模型。通过在国际公开数据集Room-to-Room上进行对比实验,验证了本文方法的优越性与鲁棒性。对于无搜索策略的基于余弦相似的VLN改进算法,在不可见测试环境下导航准确率达到了50%,在三个验证数据集上都比以前的模型有较大的提升。对于基于搜索策略的VLN算法,本文提出的导航框架在不可见测试环境下成功率达到了74%,在公开测试排行榜上位列第一,充分验证了本文方法的有效性。同时,本文提出的全局归一化训练方法和匹配评估策略可以推广到一般的导航框架内,具有较大的应用潜力。
其他文献
水声传感器网络(UASNs)作为无线传感器网络(WSNs)在水下的延伸,目前已在海洋环境监测、海啸灾害预警、水下资源勘探、海上战争等领域得到广泛应用。作为水声传感器网络的基础研究,节点部署和节点定位是水下路由设计、拓扑控制等其余研究的先行工作。受水下环境以及水声信道特性的影响,传统WSNs的部署与定位机制都难以直接适用于水下。除了从二维网络向三维网络的转变之外,受水流影响导致的节点运动、节点在水下
学位
选用氧化石墨烯(GO)及丁二胺(BDA)在尼龙(Nylon)基底上,利用真空抽滤法多次组装制备复合膜,并将其用于有机溶剂甲醇中染料的脱除,研究了其分离性能。文中采用扫描电子显微镜(SEM)、X射线衍射仪(XRD)、接触角测量仪、X射线光电子能谱仪(XPS)等表征手段对复合膜的微观结构和组成进行了表征,并研究了GO、BDA的浓度、组装层数等因素对复合膜有机溶剂分离性能的影响,探索得出最佳分离膜的制备
期刊
五相电机相比三相电机具有容错性强、转矩脉动小、控制自由度多等优点,在电动汽车、航空航天等领域有着很大的应用价值。本文针对五相永磁同步电机单相、两相和三相开路故障情况,研究了一种适用于三种开路故障的容错控制策略,实现电机在故障下平滑转矩的输出。具体内容如下:首先,按照镜像对称原则设定容错电流,基于控制变量法的思想分两步求解容错电流的相位与幅值。第一步设故障前后电流幅值不变,根据转矩模型建立电流相位与
学位
随着深度学习和大数据技术的快速发展,国网大力推进无人机巡检影像智能识别的应用。绝缘子和销钉是输电线路中的关键器件,但在高分辨率的图像中,现有的算法很难准确检测出复杂背景下较小的缺陷目标。本文根据绝缘子和销钉的各自特点,分别设计了对应的缺陷检测方案。针对绝缘子自爆识别,本文级联了目标检测算法和语义分割算法,在全局和局部两个阶段做缺陷诊断。首先,在原图中初步检测缺陷目标,同时定位出所有的绝缘子,把面积
学位
生物质快速热裂解是生物质转化利用的有效途径,但常因是非催化过程,裂解温度高导致生物油成分复杂难控。以ZnCl2为催化剂,研究了木质素、纤维素、玉米芯和松木粉的热解过程,旨在探索原位催化对快速热裂解的强化作用。通过热重曲线拟合,获得了热裂解的活化能;通过快速热裂解实验,研究了催化作用下热解油组成变化。结果表明,ZnCl2催化可显著降低生物质裂解温度,简化生物油组成。在350℃快速热裂解松木粉获得了4
期刊
显著性目标检测任务的目的是在图像中勾勒出人类视觉最关心的部分,用于后续的算法或是减少图像处理的成本。某些应用环境中光照不足,可见光数据通常会失去大部分性能,而热成像数据可以弥补这一部分的信息损失,提高检测性能。本文针对低光照或是光照不稳定的情况下的显著性检测任务,对光照判别、多源数据融合以及显著性检测展开了研究。具体工作如下:首先基于光照判别数据集,训练光照判别模型。将多源显著性检测数据集输入光照
学位
在实际环境中,语音经常受到噪声的干扰,影响语音质量。通常采用语音增强技术滤除语音信号中的噪声污染,提高语音信号的质量。其中麦克风阵列语音增强算法不仅可以使用语音信号自身的时频域信息,还可以使用各信号间的空域信息,空间分辨率较高,抗干扰能力较强,能够弥补单麦克风对噪声抑制不足的缺点,能够获得更好的语音增强效果,但其增强语音中仍存在残留噪声。因此本文提出一种基于噪声估计的麦克风阵列语音增强系统,主要结
学位
近年来,深度学习技术在计算机视觉、语音识别、自然语言处理等多个领域崭露头角并取得了巨大成功。该技术主要基于神经网络模型,采用“端对端”的特征学习方法,通过多层处理找到数据中隐藏的非线性特征,进而能够从大量训练集中自动学习以掌握全局特征。然而,基于神经网络模型的深度学习技术目前还存在计算复杂度大和表达能力有限等问题。针对上述问题,本文从轻量化卷积算子和自适应激活函数这两个角度进行了研究:第一,提出了
学位
屏摄图像上的摩尔纹是指在拍摄数字显示设备时,数码相机的感光原件和显示设备的显示元件之间发生混叠而产生的干扰条纹。这种干扰条纹的尺寸、形状和颜色会根据拍摄角度和不同相机参数设置而发生变化,这使得很难使用人为设计的先验信息来对摩尔纹进行去除。传统的有监督的深度学习方法需要使用大量严格成对的带摩尔纹图像与干净图像来训练网络,这需要很大的人力物力财力支持。并且拍摄时显示设备和拍摄设备之间的不同夹角以及拍摄
学位
在社会信息化大发展的时代,图像处理技术已逐渐成为科学研究的重要支撑,正不断渗透在各个领域中。光学图像滤波处理正得到广泛关注,其包括医学诊疗图像处理方向的视网膜光学相干层析(Optical Coherence Tomography,OCT)以及电子散斑干涉(Electronic Speckle Pattern Interferometry,ESPI)两个方面。OCT和ESPI等测量技术所采集到的图像
学位