【摘 要】
:
视觉语言导航是一项集计算机视觉和自然语言处理于一体的跨模态任务。该任务要求模型能够对图像和自然语言两种不同格式的信息进行转换和处理,获取其中的信息,并且在模拟的真实3D环境中完成导航任务。目前大部分的相关研究都倾向于通过更好的处理图像和自然语言信息或者改进导航算法来提升视觉语言导航模型的性能,而忽略了智能机器人从环境中获取更多信息的可能性。在对该任务的数据集里面的自然语言指令进行分析之后,我们发现
论文部分内容阅读
视觉语言导航是一项集计算机视觉和自然语言处理于一体的跨模态任务。该任务要求模型能够对图像和自然语言两种不同格式的信息进行转换和处理,获取其中的信息,并且在模拟的真实3D环境中完成导航任务。目前大部分的相关研究都倾向于通过更好的处理图像和自然语言信息或者改进导航算法来提升视觉语言导航模型的性能,而忽略了智能机器人从环境中获取更多信息的可能性。在对该任务的数据集里面的自然语言指令进行分析之后,我们发现区域信息在自然语言指令中所占比重相当大,每条指令平均出现了两次左右的区域信息词汇,结合我们在生活中按照指令导航的实际经验,本论文提出了使用区域信息进行辅助导航的模型。本文提出的区域信息模型集合了从图像获取的当前区域信息和根据自然语言指令预测的下一个区域信息,将跨模态的信息处理之后作为先验信息辅助智能机器人的导航模型训练和导航。在多个开源的视觉语言导航模型上进行实验之后发现,使用区域信息进行辅助训练和导航能提升导航成功率,尤其是在该任务的一项关键指标成功路径长度上有显著提升。同时,在模型中加入了区域信息之后,导航模型在陌生环境中的性能也得到了提升。同时,视觉语言导航任务的研究多为英文研究,在已有成果的基础上,本文将数据集进行了汉化处理,进行了中文视觉语言导航任务的研究,得到了较好的性能。
其他文献
随着新型社交媒体、移动互联网的快速发展,越来越多的人在社交网络上发表言论来表达自己的情绪或观点。作为自然语言处理领域的一个重要研究课题,情感分析技术能够对网络上产生的大量文本信息进行有效分析,判别出网民的观点和情感倾向,受到研究者越来越多的关注。传统的文本情绪分析大多假定每个句子只有一个或多个关联的情绪标签,能够识别目标句子中包含哪几种情绪,但无法定量地回答各个相关情绪的表达程度分别具体是多少。对
传统的C-H官能团化反应通常是在高温下进行的,并且需要依靠各种各样的金属催化剂和外部氧化剂,这些金属催化剂和外部氧化剂的原子利用率不高并且会产生化学废弃物。而近年来,电化学催化氧化偶联已经在有机合成中成为一种热门的活化碳氢的方法,电化学催化不需要添加额外的外加氧化剂和还原剂,是利用阳极氧化或阴极还原来实现化学氧化剂或还原剂的功能,从而进行下一步反应,已被证明是最环保的合成技术之一。在过去的十年中,
聚酰亚胺气凝胶(Polyimide aerogel)由于具备密度低、孔隙率高、机械性能优异、导热率低、阻燃性及热稳定性好等优异特性,使其作为一种新兴的聚合物气凝胶,在航空航天、建筑材料、阻燃隔热等领域具有广阔的应用前景。目前,制备聚酰亚胺气凝胶的主要方法为冷冻干燥-热亚胺化法与化学亚胺化-超临界干燥法。但以上两种方法均需要冷冻干燥设备和超临界干燥设备等特殊设备,且冷冻干燥法存在耗时,超临界干燥存在
LTE网络是当前移动互联网的基础,由于LTE网络采用的高频频段对障碍物的绕射和穿透能力弱,在密集城区内信号覆盖受到许多因素制约,对基站建设数量和网络覆盖要求更高。如何在密集城区克服站址资源紧张等因素,解决网络弱覆盖区域的信号质量差等问题,是运营商关注的焦点。论文结合南昌电信现网实际工程,全面深入研究了室外站建设模式及其应用。本文首先简述了LTE网络原理和关键技术,全面分析了传统的室外站建设模式及现