基于Transformer改进的跨模态智能体自主导航的研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:Wayne_poplar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
世界是多模态的,人类所获得的信息往往同时包含文本、图像、声音等各类型的模态。而当前人工智能发展迅速,在自然语言处理、计算机视觉和语音识别各自领域中都有重大突破,但这种单一领域的突破仍然与真实世界有着明显不同。为了构建能够真正理解人类世界的人工智能,它需要有对多模态数据识别与相应的能力。而一般的视觉问答与视觉推理等跨模态任务已有许多出色的模型与方法。本文聚焦于具有挑战的智能体自主导航任务,同时也称为视觉-语言-导航任务(Vision-Language-Naigation,VLN)。它要求智能体在一个真实拍摄的环境中,根据给定的一段自然语言指令,譬如“向前穿过卧室并走到走廊上,沿着楼梯扶手走下楼并穿过开着的门,停在墙壁有圆镜的卧室里。”,使智能体能够结合周围视觉观测状态一步一步地自主移动到终点,不仅要求最终目的地正确且要贴合指令进行自主移动。受BERT等预训练模型的启发,本文不同与以往基于LSTM结合注意力机制的传统方法,本模型采用基于Transformer的纯注意力机制的预训练模型,采用了能够融合跨模态信息的跨模态注意力机制。本文设计了包含视觉、语言、跨模态三类预训练任务进行预训练,其中语言预训练则是采用根据场景图中的结构化知识的三项预训练任务,重点学习物体、物体特征、物体间关系三类知识,能够使模型具有更好的细粒度跨模态语义表征与对齐的能力。其次,由于自主导航与一般的跨模态任务例如视觉问答、视觉推理等静态任务不同,自主导航是动态多轮的部分可观测得马尔科夫决策过程,因此在预训练阶段之后,设计了一种循环机制与状态表征方法,使模型更好地适用于自主导航任务。最后,由于预训练模型的巨大参数量,本文于提出了通过知识蒸馏的方法大幅减少了模型参数量和前向推理时间提升了模型效率,使模型更适用于实际生活实用中。本文通过嵌入层蒸馏、注意力层蒸馏、前馈层蒸馏以及预测层蒸馏四部分使较小的学生模型模仿学习到较大的教师模型的行为,进行了知识迁移。为了验证上述方法与改进的可行性,本文设计了相关实验验证各部分的效果,实验数据表明所设计的预训练任务有助于跨模态语义表征与对齐能力的提升,循环机制的训练方式相较于前人的方式更适合于自主导航,知识蒸馏提升了模型运行效率。
其他文献
随着互联网经济的快速发展,各行各业对于高学历人才的需求达到了井喷式的增长以及在各个高校对于研究生的扩招的基础上,引发了“考研热”现象。市场的需求孕育出了不同的考研公司。但是,伴随着行业规模,业务区分等不同因素驱动下,导致各个考研辅导机构在商业模式的选择上也截然不同。从管理角度而言,只有深刻理解机构/企业的商业模式,才能真正全面理解公司的战略,为企业盈利给出合适的建议。本文通过系统学习和梳理国内外商
学位
在城商行近30年迅猛发展后,截止目前已经具备了一定程度的资产规模,即使银行业全体资产增速有所放缓,但是城市商业银行依然保持着稳健增长的态势。以Q城市商业银行为例,市值已破110亿元,成为当地新三板企业榜首。但是截止2019年6月,Q城市商业银行异地分行贷款不良率已经达到当地的4倍之多,贷款恶化之势难抑。银行不良资产的产生是由自身风险引起的,商业银行的内控体制是防备自身风险的第一道防线,而对于商业银
学位
在GNSS推动了时空信息获取技术的发展这个背景下,高精度GNSS定位成为了未来的发展重心。对流层延迟误差一直都是GNSS定位精度获得再次提升的绊脚石,模型改正法是其当下使用最为频繁的解决方法,但精确程度还有一定的上升空间。对研究内容进行调研后,发现当前行业内大多倾向于ZTD经验模型的构建,然而传统经验模型需要海量网格值,这需要性能较好的设施,提高了模型使用的难度值。在机器学习逐步发展到时间序列分析
学位
地震发生后将产生纵波(P)、横波(S)两种类型的地震波,其中纵波传播速度大于横波传播速度,而横波对地表造成的破坏远大于纵波,因此当地震发生到破坏性地震波到来之前存在着时间差。地震烈度是衡量地震对震源周围地表造成破坏的程度。由于地震P波初始信息(加速度、速度)与最大地震烈度之间存在着映射关系,因此在P、S时间差内,利用震源地周围观测台站观测到得P波初始信息对最大地震烈度进行预测,并先于破坏性地震S波
学位
随着国家经济的发展和新高考改革制度的推进,面对逐年增加的升学和就业压力,家长对教育的重视程度得到提升。我国K12在线教育行业得到了快速的发展,更多企业投身该行业之中,市场竞争十分激烈。为了保证该行业中企业的生存和发展,需要用精准营销的理论对企业营销策略进行优化。具体做法包括,对客户信息进行整合分析,挖掘并满足不同类型客户的个性化需求,在提升营销效率和用户满意度的同时降低营销成本,从而提升企业竞争力
学位
行为识别技术对计算机视觉的发展起到至关重要的作用。在最近的研究中,由于数据集规模的扩大,基于深度学习的行为识别技术逐渐取代了传统的机器学习算法。目前行为识别任务中采用的主流算法主要包括双流卷积网络、长短期记忆网络、图卷积网络、三维卷积网络。本文分析了相关行为识别算法的优缺点。针对这些缺点,本文先后改进了基于骨架数据的行为识别算法和基于RGB视频数据的行为识别算法。最后提出多模态融合和一种时域特征增
学位
在百年未有之大变局的今天,危险与机遇同时存在,新冠疫情全球蔓延,世界经济集体下滑,2020年世界主要经济体大都处于负增长态势;另外,贸易保护主义、单边主义、逆全球化正在抬头,外部环境不太乐观。从国内经济发展趋势上看,我国经济增速也由高速增长转为适度增长,金融业也呈现多样化的发展态势,银行业作为我国经济运行的支撑平台,作为金融业发展的经济主体之一,其发展水平也受到了一定的影响,主要表现在贷款业务压力
学位
在当前“新零售”的生活背景下,消费者既能获得传统线下零售店的优质购物体验,还能够获得线上平台或电商的优惠和便利,而出现在人们购物整个过程中的各种智能科技,不断的渗透和应用使消费者拥有良好的购物体验并吸引出他们下次购物的欲望。“新零售”模式已经吸引了大批消费群体的目光,他们凭借着高的对新鲜事物的接受度和对消费转型升级的强烈愿望,任意地畅游在高效、智能、便利、平价、轻松愉快的商品和购物生活环境之中,消
学位
本文以南山铝业2004-2012年发行的三次可转换债券(以下简称“南山转1”、“南山转2”、“南山转3”)作为案例研究对象,分别对三次可转换债券的发行情况、融资情况以及发行后的绩效情况等三个方面进行研究。研究发现南山铝业成功发行可转换债券的原因主要有公司的财务指标满足发行条件、良好的业绩及募集资金投向符合国家政策。南山铝业选择发行可转换债券筹集资金的原因主要包含:国家政策鼓励利用新技术生产新型铝合
学位
自2000年以来,我国市政公共设施建设工程的投资额逐年增长。伴随市场不断发展,N城建集团市政工程建设的目标与要求开始从“多而广”向“专而精”转变。提高采购管理水平目前是保障企业施工质量与速度、提升核心竞争力、赢得利润并缩减施工成本最直观有效的手段之一。通过本文研究,可以在一定程度上降低N城建集团材料购置成本、提高采购管理水平,促使供需双方建立良好的合作伙伴关系,形成一套适合市政工程企业的采购管理体
学位