基于生成式与检索式融合学习的图像描述方法

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 0次 | 上传用户:wgrlxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代的高速发展,多媒体内容在互联网中的数量呈现爆炸性地增长。图像作为人类交流最常使用的信息媒介之一,能够直观地表达丰富的视觉信息。图像描述旨在通过学习的手段让计算机能够像人类一样通过理解图像中的内容,利用自然语言生成技术产生对应的文字描述。图像描述跨越了图像与文本的语义鸿沟,因此在信息检索、人机交互等领域具有重要的意义。如今,图像描述任务大多采用深度生成模型技术以灵活地产生与图像语义匹配的文本描述,然而单纯依赖生成式模型产生描述的方法仍然面临着无意义生成、逻辑错误生成、语法错误生成、长序列建模困难等问题。与此同时,图像描述任务的检索式方法虽然能够产生细节丰富且文法正确流畅的描述,却缺少足够的灵活性而无法根据图像内容量体裁衣地产生与之最匹配的描述。为此,本论文探究如何有效地结合生成式方法与检索式方法各自的优点以改善图像描述的效果,主要研究内容包括:1.提出生成式与检索式融合学习的图像描述语句生成模型。针对图像显著区域描述难以产生精准语义的问题,构建了基于图像语义相似度的检索模型与结合检索知识的语言生成模型,并提出拷贝机制将检索结果中相关的词语引入到文本生成中,设计了检索式判别器与描述生成器的交互式对偶对抗训练机制。2.提出检索知识推理的层次化融合图像描述段落生成模型。针对语言生成模型在长序列文本生成中产生无意义、不相关描述的现状,构建了图像描述段落的场景图谱。通过引入检索知识的手段,辅助模型完成层次化的句子级别的主题规划与词级别的语义建模,并通过相关描述与知识三元组辅助模型生成精准且流畅的长文本描述,此外构建了图像描述段落生成任务的中文数据集。3.构建图像描述视觉辅助系统。针对市面上缺少图像描述视觉辅助系统的现状,通过对前述算法的整合研发了一个在线图像描述系统。该系统将基于生成式与检索式融合学习的方案应用于图像描述生成中,并提供语言生成的参数控制,将生成结果可视化,达到了较好的描述效果。
其他文献
锂离子电池首次充电过程中因负极形成固体电解质界面膜(Solid Electrolyte Interface,SEI)而造成不可逆容量损失,特别是高容量硅基材料SEI膜的破坏与重构会永久消耗来自正极的活性锂,导致较低的首次库伦效率(Initial Coulombic Efficiency,ICE)和容量的快速衰减。补锂(预锂化)可引入额外的“锂源”补偿不可逆容量损失,其中正极补锂具有良好的可操作性、
学位
钠离子电池技术被视为是有应用前景的下一代储能技术,但其整体的能量密度受限于正极材料的容量和电压。再者,正极材料的成本占到了钠离子电池总成本的三分之一以上。开发高效低成本的正极材料是钠离子电池的发展重点。聚阴离子型正极材料因其独特的诱导效应和丰富的骨架结构而备受关注。其中,SO42-的电负性强,对M-O的诱导效应强,与其他类型的聚阴离子化合物相比,硫酸盐类聚阴离子型化合物通常具有更高的工作电压。同时
学位
超声神经调控是一种无创的、靶向性好的深部脑刺激技术,在治疗阿尔兹海默症、癫痫等神经退行性疾病上颇具应用潜力。然而,由于颅骨的反射和散射作用会使得超声作用点偏移,超声神经调控的安全性和有效性无法得到保障。磁共振声辐射力成像(MR-ARFI)能为超声神经调控提供精准定位和引导。然而,MRARFI存在着成像时间长的缺陷,如何在不影响定位精度的条件下,加快MRARFI成像速度成为超声神经调控领域的迫切需求
学位
质子交换膜燃料电池(PEMFC)与锌-空气电池(ZAB)是新型的高能、环保储能与转换器件,但其阴极氧还原反应(ORR)过程过电位高、机理复杂,Pt族金属(PGM)催化剂成本高昂,合成低成本、高活性的非贵金属ORR催化剂是这两类电池商业化应用的关键步骤。针对非贵金属催化剂本征活性不足的问题,本论文基于沸石咪唑酯骨架(ZIF-8)材料制备了高活性的锰基双金属氧还原催化剂,并对Mn元素对催化剂活性提升的
学位
基于合金化/去合金化反应机制的硅负极材料以理论容量高、电极电位低、储量丰富、成本低廉的优势受到国内外科研人员的广泛关注,成为高比能量锂离子电池(Lithium-ion Batteries,LIBs)负极的理想选择。然而,其在LIBs中的实际应用仍面临低首次库伦效率(Initial Coulombic Efficiency,ICE)和快速容量衰减的瓶颈问题。针对上述两个问题,本文采用Li F添加剂改
学位
随着全世界电动汽车市场的迅速增长,锂离子电池产能也大幅扩张,正极材料对钴的依赖以及资源稀缺带来的钴价上涨导致锂离子电池成本上涨,这刺激了无钴正极材料的研究和发展。其中无钴高镍层状正极材料因其较高容量、低成本以及最接近商业化应用的特性受到企业界和科研界的广泛关注;本论文基于热处理温度对无钴高镍正极材料颗粒粒径形貌、晶体结构以及电化学性能的影响机制的深入研究,制备出具有最佳电化学性能的未改性材料;通过
学位
脑卒中被认定为全球第二大死因,也是成年人长期残疾的主要原因。全世界范围内每年约有1500万人患中风疾病。足下垂是中风后常见的病症之一,为治疗患者因足下垂导致的偏瘫现象,临床上利用Fugl-Meyer运动评分量表与Barthel指数用以分析患者运动的能力以及评定患者处于发病时期,在发病前期即时进行康复训练可最大化接近正常人步态。目前常见的治疗手段包括按摩训练,电刺激训练等,近几年外骨骼机器人的引入对
学位
氧还原和析氧反应(Oxygen Reduction Reaction,ORR和Oxygen Evolution Reaction,OER)是以燃料电池和金属空气电池为代表的新一代能源转换技术当中的两个重要反应,这两个反应的高效催化剂大部分为以Ru、Pt、Ir等贵金属为代表,但其高成本低储量的缺点尚不能完全满足上述两种技术大规模应用的需求。因此,合理设计并开发低成本且高活性、高稳定的非贵金属催化剂是
学位
X射线聚焦镜厚度薄,面型精度高,要求电铸的镜片内应力尽可能小,以及为了防止受外力冲击而变形,镜片材料要具有足够高的强度。力学性能优异的镍基电铸层成为首选的镜片材料,内应力低的氨基磺酸盐镀液被作为电铸体系。为了提升电铸镜片的强度,本文研究低应力Ni和Ni/Al2O3电铸工艺,探究工艺条件对镀层力学性能的影响规律,对实际电铸过程进行模拟仿真,为调控电铸层力学性能和聚焦镜生产提供参考。采用氨基磺酸盐体系
学位
氢能的出现为2060年碳中和的实现提供了前提条件,氢的廉价制备是制约氢能发展最主要的技术瓶颈。电解水制氢是目前比较简单方便的制氢方法,但制氢过程需要高效的催化剂。MoS2是目前研究较多的电催化剂之一。与铂电催化剂相比,MoS2丰度较高,价廉易得,是一种较为理想的电催化剂。目前,研究者发现了很多方法可以用来提高MoS2的催化析氢性能,其中利用磁性元素掺杂MoS2可以显著提高其析氢性能,且方法简便,原
学位