图片及语言跨模态深度学习在仪器领域的研究与应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ddd12322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的发展,人工智能的各个领域得到了很大提升,包括自然语言处理、多模态处理等。近年来多轮对话改写任务、多模态图文问答任务、跨模态对话任务取得了较大进步。然而跨模态视觉对话问答任务的研究还比较少见,此任务有助于人工智能的发展。深度学习跨模态视觉对话问答任务可分为两个子任务:多轮对话改写任务和多模态图文问答任务,多轮对话改写属于自然语言处理任务,通常只与语言有关,多模态图文问答涉及了模态的融合和对齐两个方向,本文认为协同学习的方法可作为一种辅助多模态任务的手段,引入协同学习可以帮助完成跨模态视觉对话问答任务。首先对于多轮对话改写任务,针对多轮对话中因存在很多指代和省略的情况易产生歧义的特点,如果多模态模型直接输入不经过改写的对话,由于本文中缺少词语,就无法将图像特征与文本嵌入进行对齐,所以使用多轮对话改写模块重写出完整的句子。针对已有的用历史对话提供词语信息的多轮对话改写模型,本文引入了协同学习机制,在多轮对话改写的基础上,加入上下文视觉协同信息。多模态图文问答是根据图像信息给出的回答,通常此答案是上下文协同视觉信息,将此答案融入下一轮多轮对话改写任务中,形成视觉信息与文本信息的协同,引入协同学习机制,使视觉信息能够被恢复在待改写文本中,提高改写的正确率。本文提出了融入上下文视觉协同信息的跨模态协同视觉对话问答模型。将上下文视觉协同信息融入多轮对话改写任务,加强了句子中视觉信息的作用,得出包含视觉信息的改写句子。将改写句子转化成文本嵌入的形式,图像提取出图像特征作为视觉信息,采用双流的多模态处理方式,先分别对二者进行独立编码,然后将两部分信息进行交叉学习的跨模态处理,跨模态处理能够将视觉信息与文本进行模态融合和对齐,最终获得交叉模态信息,得出图文问题的答案。这个信息将作为上下文视觉协同信息进入下一轮多轮对话改写任务中,形成协同学习机制。协同学习机制能够提高多轮对话改写的正确率,也提高了对话的多模态融合对齐的效果。基于此思路对跨模态视觉对话问答任务进行理论研究,给出关键的公式,并给出了整体模型图,模型分为多轮对话改写模块、多模态融合对齐模块和协同学习模块,最终完成了跨模态协同视觉对话问答模型的构造。
其他文献
仿人机器人具有高度的灵活性以及人性化的设计,受到各界众多科研学者的关注,为人类生活各个方面带来便捷。运动控制是仿人机器人最基础的操作,通过人体肢体语言对人形机器人实时远程控制是目前研究热点之一。论文以人形机器人NAO为平台,设计并实施了一种基于Kinect的人形机器人远程控制系统。传统人形机器人控制技术的设备昂贵、工作复杂、成本偏高,并且速度与精度也存在提升空间。因此,如何降低传统人形机器人控制设
学位
为了进一步加强对国防和经济建设的统筹治理,2017年军民融合上升为国家战略。军民融合是我国深化经济改革的有力举措,是建设现代化国防尖兵的强军之策,也是长期以来我国在经济建设和国防建设中寻求融合发展取得的重大实践经验和成果总结。航天X公司隶属航天科技集团,成立于1999年,为航天事业发展做出了贡献。航天X公司作为航天技术应用产业化公司,其相关民用产业的发展取得了一定的成绩,已成为高端机电装备行业的领
学位
当前我国消费金融的租房分期行业面临着激烈的竞争,国家对长租公寓和互联网金融的整顿对租房分期公司的风险管理提出严峻挑战。H公司是业内知名的互联网金融公司,于2014年在北京开始开展租房分期服务,尽管从公司成立之初起便成立了专门的风控团队负责风险管理工作,并在业内率先对长租公寓实地尽调、审查房源等,但是随着业务规模的不断增长,风险损失不断扩大,之前的风险管理体系不再适应当前发展。本文针对该公司存在的风
学位
学位
2020年以来,在国家宏观政策的影响下,中国房地产市场从供应端、需求端和企业端三方面齐抓共管,有效遏制了房价的过快增长,房地产正式告别高利润的黄金时代。西安房地产市场也无一例外地出现了需求下滑,市场观望情绪加重等现象。特别是前景广阔的二手房市场在实施政府指导价后,全年西安二手房累计成交量开始下降并出现大范围―降价‖活动,再加之疫情的反复影响,使得二手房市场购买力继续持续下滑。在面对复杂多变的房地产
学位
信贷作为最常见的、最广泛使用的金融业务,促进了资金的高效运转,提高了社会资源的分配效率。随着近几年消费金融公司和小贷公司等非银持牌机构开始涉足和经营信贷业务,原有主要由商业银行垄断的信贷供给被打破。市场投放信贷的主体不再是单一的银行,这使得信贷市场的层次更加丰富、种类更繁多、信贷的覆盖面也变得更加宽泛。但再大的市场,容量也是有限的,在愈发激烈的竞争中,各金融机构(包括商业银行在内)都积极地改进自身
学位
近几年来,以深度神经网络为代表的人工智能的快速发展,促进了该领域的计算机视觉技术在社会各行各业中的广泛应用。多目标跟踪作为计算机视觉研究领域的一个核心技术,在智能监控、国防军事、无人驾驶以及智能机器人等方向具有重要的研究意义。现有的多目标跟踪算法虽然已经取得较大进步但仍存在一些研究难点。首先,预测目标在下一时刻的位置是跟踪算法中的一个重要环节,但是多目标之间的复杂运动会导致预测错误,其次,目标外观
学位
高功率连续微波无线能量传输技术,正日益受到学术界与工业界的重视,其理论与关键技术已成为一个研究热点。发射天线在能量传输链路中,具有举足轻重的作用。为此,本文将非线性结构因素对空气微带阵列发射天线电性能影响作为主攻方向,基于阵列天线机电耦合理论,针对高功率微波发射天线,明确影响其电性能的非线性结构因素,建立其数学表征与综合模型,并面向逐日工程空气微带有源阵列发射天线进行了试验与分析。主要工作如下:1
学位
振动能在自然环境中几乎无处不在,各种机械振动、桥梁振动和人体运动中都蕴含着丰富的振动能,通过收集环境中的振动能并将其转换为电能是替代传统电化学电池的一种有效途径。近年来,摩擦式俘能器以其重量轻、材料多样、成本低和输出电压高等独特优点,在收集环境振动能方面得到了迅速发展,但接触模式下的稀疏脉冲输出和材料磨损、非接触模式下的电荷耗散降低了摩擦式俘能器的输出稳定性且缩短了摩擦式俘能器的机械寿命。为了提高
学位
四旋翼无人机由于结构简单,无需跑道,可定点悬停及原地起飞,被广泛应用在各种领域。而单架无人机通常无法高效完成复杂、大规模的工作任务,需要多架无人机编队来完成。传统的编队算法收敛速度较慢,且编队时容易发生碰撞。为解决以上问题,本文利用人工势场法研究了无人机的编队控制问题,主要的工作和研究成果如下:(1)针对传统编队算法收敛速度较慢问题,分别提出了基于人工引力势场的集中式和分布式领航者—跟随者编队算法
学位