面向智能人机交互的视觉—语言跨模态匹配技术

来源 :军事科学院 | 被引量 : 0次 | 上传用户:wjx542398964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互(Human-Computer Interaction,HCI)是指人与机器之间通过特定的手段实现信息交互。传统的人机交互方式以设备为中心,交互模式单一,且需要人主动适应机器。近年来,在深度学习技术的赋能下,计算机视觉技术、自然语言处理技术飞速发展,面向多种传感器的多模态交互方式随之出现,也使得以设备为中心的人机交互方式逐渐向以人为中心的交互方式转变。智能人机交互便是在这样的背景下被提出,智能人机交互以人为中心,利用多模态技术的融合与匹配,使人与机器高度协同,将人机交互变成人“人”交互。本文针对智能人机交互技术,从视觉-语言跨模态匹配的角度进行研究,主要研究内容与结果如下:(1)本文提出采用大规模预训练模型进行文本词向量动态表示的方法。在图文跨模态匹配中,针对文本的向量表示,现有的静态词向量表示方法存在表示不准确、表示有歧义等问题,本文通过使用BERT动态词向量表示方法,将不同文本内容中的相同词组对应的词向量进行动态表示,使得相同单词在不同语境下的含义得以区分,文本特征表示更加准确,提升了图文匹配模型的准确率。(2)本文提出一种完善基于图结构化的图像文本匹配推理的方法。现有的基于图结构表示的图像文本跨模态匹配研究中存在对图结构信息利用不足,推理过程不全面,最终影响匹配准确率的问题。本文提出增加从端节点到中间节点推理过程,将端节点与中间节点之间的相互影响加入匹配信息中,将图结构信息更充分地利用起来,实现了效果更优的图文匹配模型。(3)本文提出一种基于图像文本结构化匹配的视觉语言导航全局训练方法。在人与无人机的交互过程中,无人系统使用束搜索仅能得到局部最优。本文提出将图像文本匹配方法引入到视觉语言评估模型中以及基于全局信息的训练策略,使视觉特征和语言特征匹配更精确,同时局部优化与全局优化相结合,最终实现性能更优的算法模型。(4)本文实现了人与无人机基于图像语言的智能交互。现阶段的图像文本跨模态智能人机交互研究以仿真模拟为主,本文率先将智能人机交互算法成功部署在无人机上,并在室内环境中进行了实机验证,取得了良好的实机飞行效果。综上,本文立足于智能人机交互方法的探索,以深度学习为主要技术手段,将视觉-语言跨模态匹配为主要研究对象,分析了视觉语言跨模态匹配方法及其应用存在的问题,最终给出了相应解决方案,并通过实验验证了该方案具有良好的效果。
其他文献
党的十八大以来,习近平总书记围绕国内外科技发展形势,发表了诸多关于科技创新的重要论述。本文以2012~2021年发表在中国知网(CNKI)期刊上的161篇有关对习近平总书记关于科技创新的重要论述的相关论文为研究对象,通过可视化软件,从研究主体、研究热点、研究基础角度进行知识图谱分析,得出学术界在该领域的研究现状、研究热点、研究前沿,以期有助于学术界的进一步研究。
该文分析西方古典建筑中的柱式艺术,探讨其在不同发展阶段具有的艺术价值与相应的美学思想,以期为进一步推动其发展提供理论基础。
目的 探讨临床护理路径在眼科翼状胬肉日间手术患者中的应用效果。方法 回顾性选取2020年5—8月翼状胬肉住院患者42例为对照组,2020年9—12月翼状胬肉住院患者43例为研究组。两组均为日间手术,对照组行常规围术期护理,研究组在常规护理基础上采用临床护理路径护理。对比两组患者手术资料完善率、术后疼痛评估率、健康知识知晓率、出院准备率、护理满意度、生存质量。结果 研究组手术资料完善率、术后疼痛评估
随着市场化经济体制改革,我国期货市场逐渐发展壮大。1990年10月,郑州粮食批发市场的成立标志着中国期货市场的诞生。时隔30年,我国期货市场已经初具规模。期货市场在不断完善的过程中发挥着越来越重要的作用,期货价格的走势不仅影响投资者的切身利益,还关系到市场整体的健康发展。因此,提高期货价格的预测精度不仅具有理论意义,更具有深远的现实意义。然而,期货价格具有非线性和非平稳性的特征,这给高精度预测带来
<正>随着信息技术在教育领域的不断普及和发展,现在的教学模式越来越多地是借助多媒体的方式来进行教学,因为利用多媒体可以更加直观形象地把所学内容展现给中学生,也可以让中学生更加轻而易举地了解到每节课所要学习的内容。尤其是对于初中的英语教学来说,英语教学是一门以讲英文为方式的教学课程,让学生可以更加深刻地了解英语的含义,同时,还可以借助多媒体将一些英语漫画以及一些英语歌生动形象地展现给中学生,让学生可
期刊
在互联网+时代背景下,翻译软件逐渐盛行,这使得外语类专业的学生在面临就业发展问题时需考虑翻译软件带来的各种影响。本文通过研究互联网+背景下翻译软件的发展趋势、对比翻译软件与人工翻译的优缺点及市场所需的翻译人才等方面,借助问卷调查的形式对104名外语类专业学生的选择进行统计分析,这对我们如何正确看待翻译软件、当今外语类专业的就业形势以及在就职时如何善用翻译软件这一系列问题上起到一定的参考作用。
随着进入大宗商品市场的金融资本不断增多,国际大宗商品面临的“金融化”趋势愈演愈烈,大宗商品的金融属性成为学术界研究的热点。商品期货市场的各种特质带来的定价偏误,削弱了期货的价格发现功能,仅用传统供需理论很难解释大宗商品现货市场的剧烈价格波动,这为行为金融提供了用武之地。行为金融学是从微观市场参与主体的行为以及该行为产生的心理动因来解释和预测宏观市场的表现和走向,其挖掘的是市场波动的更深层次的驱动因
习近平科技创新重要论述汲取了马克思技术创新思想以及中国共产党历代主要领导人的科技创新思想,并进行了创造性转化、提炼与理论的新发展。他重视人民群众作为科技创新的认知主体和实践主体所发挥的重大作用。这些重要论述具有深刻的与时俱进性、目标导向性和实践指导性。当前我国科技创新处在问题倒逼理论、瓶颈倒逼改革的背景中,推动着习近平对科技创新理论创新和实践路径的不断探索。科技创新是国家发展全局的核心和现代化建设
葫芦作为中国民间传统的艺术承接载体,因有着象征吉祥的寓意一直以来都深受人们的喜爱,而兰州刻葫芦就是在葫芦文化的基础之上,衍生出来的一项极具特点的民间手工艺。兰州作为丝绸之路文化重镇,地处中国大陆版图的正中心,拥有深厚的文化底蕴,因此孕育了多种传统手工艺。兰州刻葫芦于2006年入选首批省级非物质文化遗产名录,在政府和传承人的共同努力下才使这一传统技艺延传至今。兰州刻葫芦历经近百年,在几代传承人的不断