视觉语言导航系统的路径决策多模态算法研究与实现

来源 :江西师范大学 | 被引量 : 0次 | 上传用户：rttrthjfds

【摘要】

：

【作者】

：

邹稼锐

【机构】

：

江西师范大学

【出处】

：

江西师范大学

【发表日期】

：

2021年01期

【关键词】

：

视觉语言导航区域信息强化学习跨模态中文导航

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视觉语言导航是一项集计算机视觉和自然语言处理于一体的跨模态任务。该任务要求模型能够对图像和自然语言两种不同格式的信息进行转换和处理,获取其中的信息,并且在模拟的真实3D环境中完成导航任务。目前大部分的相关研究都倾向于通过更好的处理图像和自然语言信息或者改进导航算法来提升视觉语言导航模型的性能,而忽略了智能机器人从环境中获取更多信息的可能性。在对该任务的数据集里面的自然语言指令进行分析之后,我们发现区域信息在自然语言指令中所占比重相当大,每条指令平均出现了两次左右的区域信息词汇,结合我们在生活中按照指令导航的实际经验,本论文提出了使用区域信息进行辅助导航的模型。本文提出的区域信息模型集合了从图像获取的当前区域信息和根据自然语言指令预测的下一个区域信息,将跨模态的信息处理之后作为先验信息辅助智能机器人的导航模型训练和导航。在多个开源的视觉语言导航模型上进行实验之后发现,使用区域信息进行辅助训练和导航能提升导航成功率,尤其是在该任务的一项关键指标成功路径长度上有显著提升。同时,在模型中加入了区域信息之后,导航模型在陌生环境中的性能也得到了提升。同时,视觉语言导航任务的研究多为英文研究,在已有成果的基础上,本文将数据集进行了汉化处理,进行了中文视觉语言导航任务的研究,得到了较好的性能。

其他文献

基于情感轮和情感词典的文本情感分布标记增强方法

随着新型社交媒体、移动互联网的快速发展,越来越多的人在社交网络上发表言论来表达自己的情绪或观点。作为自然语言处理领域的一个重要研究课题,情感分析技术能够对网络上产生的大量文本信息进行有效分析,判别出网民的观点和情感倾向,受到研究者越来越多的关注。传统的文本情绪分析大多假定每个句子只有一个或多个关联的情绪标签,能够识别目标句子中包含哪几种情绪,但无法定量地回答各个相关情绪的表达程度分别具体是多少。对

学位

标记增强情感轮情感词典情感分布学习情感分析

电化学氧化吡唑啉酮C-S成键反应与腙C-S成键反应的研究

传统的C-H官能团化反应通常是在高温下进行的,并且需要依靠各种各样的金属催化剂和外部氧化剂,这些金属催化剂和外部氧化剂的原子利用率不高并且会产生化学废弃物。而近年来,电化学催化氧化偶联已经在有机合成中成为一种热门的活化碳氢的方法,电化学催化不需要添加额外的外加氧化剂和还原剂,是利用阳极氧化或阴极还原来实现化学氧化剂或还原剂的功能,从而进行下一步反应,已被证明是最环保的合成技术之一。在过去的十年中,

学位

电化学合成C-S键3-甲基-1-苯基-2-吡唑啉-5-酮硫氰酸铵腙亚磺酸钠

双重股权结构保护中小投资者利益的路径与效果研究 ——以美团为例

学位

基于AHP法的江西农商银行资金风险评价与控制研究

学位

基于RAROC模型的J市国有商业银行信用风险管理研究

学位

万年黄河村镇银行经营模式与发展路径分析

学位

银禧科技商誉减值的原因、风险及防范研究

学位

酸化剂对E.tenella感染黄羽肉鸡生长性能和肠道屏障的影响

学位

冷冻-萃取/真空干燥法制备聚酰亚胺纤维气凝胶及其复合物的性能研究

聚酰亚胺气凝胶（Polyimide aerogel）由于具备密度低、孔隙率高、机械性能优异、导热率低、阻燃性及热稳定性好等优异特性,使其作为一种新兴的聚合物气凝胶,在航空航天、建筑材料、阻燃隔热等领域具有广阔的应用前景。目前,制备聚酰亚胺气凝胶的主要方法为冷冻干燥-热亚胺化法与化学亚胺化-超临界干燥法。但以上两种方法均需要冷冻干燥设备和超临界干燥设备等特殊设备,且冷冻干燥法存在耗时,超临界干燥存在

学位

聚酰亚胺气凝胶冷冻-萃取真空干燥机械性能隔热阻燃

密集城区环境下LTE网络室外站建设模式及应用的研究

LTE网络是当前移动互联网的基础,由于LTE网络采用的高频频段对障碍物的绕射和穿透能力弱,在密集城区内信号覆盖受到许多因素制约,对基站建设数量和网络覆盖要求更高。如何在密集城区克服站址资源紧张等因素,解决网络弱覆盖区域的信号质量差等问题,是运营商关注的焦点。论文结合南昌电信现网实际工程,全面深入研究了室外站建设模式及其应用。本文首先简述了LTE网络原理和关键技术,全面分析了传统的室外站建设模式及现

学位

长期演进计划密集城区网络覆盖微小站

视觉语言导航系统的路径决策多模态算法研究与实现

与本文相关的学术论文