基于训练-测试鸿沟弥合的图像描述生成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:manaijin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成技术是横跨计算机视觉和自然语言处理这两个领域的新兴学科,将图像和文本两个不同模态的信息融会贯通。例如,在淘宝、京东、拼多多这样的电子商务网站中,文本和相应的配图以及每个用户的交叉访问行为相结合一直出现在搜索引擎上。得益于深度学习的发展,图像描述生成的算法在近几年取得了很多进步。作为新的生成框架,深度学习的方法还有很多进一步优化性能的空间。主流的图像描述生成按照训练-测试数据分布的不同设置,主要可以分为监督学习图像描述生成和迁移学习图像描述生成。监督学习图像描述生成主要研究训练和测试来自同一个分布数据集的问题,迁移学习主要研究在训练集上训练的模型迁移到数据分布不同的测试集的问题。本文针对监督学习图像描述生成中的训练-测试鸿沟问题和迁移学习图像描述生成中的训练源域泛化到测试目标域的鸿沟问题,分别展开研究,主要贡献包括以下两个方面:针对监督学习图像描述生成,本文提出了一种基于视觉线索引导的多阶段解码描述生成框架。现在主流的方法一类是基于RNN或LSTM解码器框架,缺乏模型的并行性。另一类是最新的可以保持并行性的Transfomer框架,但这些方法只能使用真实标签教师强制方法进行训练,导致训练-测试鸿沟。为了解决这个问题,本文提出了利用多阶段解码方式来帮助Transformer解决图像描述生成的训练-测试鸿沟和保持并行性问题,并且在多阶段解码模块的基础上使用视觉线索,使得模型在自学时更关注视觉重要的单词,这更加符合人类大脑的认知直觉。大量的实验分析和探究充分地证明了本章节提出方案的有效性。对于迁移学习图像描述生成,本文提出了一种基于多源域和跨数据集设置的域泛化图像描述生成基准。如果想要将训练好的描述模型泛化到一个新的图像领域,并且在这个新领域数据获取不方便的情况下,则需要减少对新领域数据的依赖。本文还发现大多数描述模型都集中在同一个域上进行训练和测试,这会导致模型过拟合特定领域的偏差,只学习特定领域的特征;另一方面,现存的域泛化方法不能直接应用于图像描述生成,因为大多数域泛化任务的标签空间是相同的,而域泛化图像描述生成任务的标签空间是多样化的。因此,为了进一步提高图像描述生成模型在未知域上的性能,本文首先构建一个涵盖多个域的基准。然后本文设计了一种基于视觉-语言三元组采样的度量学习方法,以改进学习与领域无关的特征并且弥合领域鸿沟,充分的实验验证了其良好的泛化性能。
其他文献
新课标提倡学生多读书,好读书,读好书,读整本书。阅读整本中国古典名著,对学生核心素养的提高是极有帮助的。文章以五年级下册第二单元“走进中国古典名著”单元活动为例,探索在“双减”政策与新课标背景之下,小学高年级如何指导“整本书阅读”,以期引导学生掌握一些阅读古典名著的方法,减轻其畏难情绪,并初步养成整本书的阅读习惯,感悟古典名著的魅力。
期刊
氢气作为可再生的清洁能源引起了广泛的关注,电解水制氢是制备氢气的重要途径。电解水由析氢反应(HER)和析氧反应(OER)两个半反应组成,其中析氧反应是一个四电子-质子耦合反应,具有较高的能垒,降低了整体水分解的效率。使用OER催化剂可以降低过电位,提升OER速率,现在的商用催化剂主要是贵金属铂(Pt)或铱(Ir)基催化剂,成本高且不易获得,所以开发低成本的催化剂能够有效解决这一问题。层状双氢氧化物
学位
现代战争中,任务单位应对敌方导弹拦截系统进行智能化、自主化逃逸,可有效提高其战场生存率,确保作战效能。而逃逸策略的设计较为复杂,需对追逃过程非线性动态特征影响,作动器饱和约束,任务目标对作战空域限制等诸多因素进行充分考虑。针对上述问题,本文基于最优控制理论,考虑不同类型的约束条件,利用自适应动态规划算法(Adaptive Dynamic Programming,ADP)对不同攻防态势下目标的最优逃
学位
胃蛋白酶(等电点约为1.0~2.5)是一种由胃黏膜主细胞所分泌的蛋白水解酶,在食品工业和疾病诊断领域有着广泛的应用。目前,已经报道的胃蛋白酶的检测方法有酶联免疫吸附法、色谱法和毛细管电泳法(CE)等。CE由于其具有分离效率高、分离速度快、试剂和样品消耗量少、经济等优点,在蛋白质分析领域发挥着重要作用。然而商用CE一般采用的是光程较短的紫外检测器,而且CE的样品用量少,从而导致样品在CE-UV中的检
学位
目的:探究外源性硫化氢(NaSH)对脓毒症心肌病大鼠中内质网应激介导自噬的作用。方法:细胞模型:用LPS(5ug/ml)诱导H9C2心肌细胞脓毒症模型,NaSH(外源性H2S供体)、PAG(内源性H2S抑制剂)与细胞共同培养,给药浓度为NaSH(50umol/L),PAG(200umol/L)。将细胞随机分为七组,对照组(Control),脓毒症组(LPS),对照组与NaSH共同处理组(Contr
学位
抗生素具有生态毒性且不易降解,作为一种新兴污染物,已陆续在地表水、地下水甚至饮用水中检出,对生态环境和人体健康造成了潜在威胁。过硫酸盐高级氧化技术有p H适用范围较宽、产生的硫酸根自由基(SO4-·)半衰期较长等特点,被广泛应用于降解有机污染的研究。本研究以制备的磁性生物炭为催化剂,对超声强化磁性生物炭活化过硫酸盐(PDS)处理水中四环素(TC)的效果及工艺条件进行研究,为水中四环素类抗生素的有效
学位
一氧化氮是许多生理和病理过程中重要的信号分子,参与了包括神经传导、血管形成、免疫调控及平滑肌舒张等重要生理活动,现在已广泛应用于治疗心血管疾病、癌症、细菌感染和炎症等领域。光作为一种温和的外界刺激,具有时空可控和非侵入性特点,广泛应用于触发药物分子释放,其中包括光响应一氧化氮释放分子。多数光响应一氧化氮释放分子仅对紫外光响应,紫外光穿透能力不足、光毒性大等缺点限制了其生物医学应用。光氧化还原催化是
学位
“双减”政策背景下,多样化、跨学科的作业是作业改革的方向。这对教师整体把握单元主题,系统规划单元学习进程,设计层次性、个性化作业提出了更高的要求。在对统编语文教材五年级下册第二单元——古典名著单元实施项目化作业时,教师通过问题驱动、方案设计、启动作业三个步骤,引导学生对文本内容进行深度挖掘、合作探究,同时融入其他学科的知识与技能,这样促进了学生的深度学习,拓宽了语文实践的场域,促进了学生语文核心素
期刊
面对陆地资源的日益损耗,水域资源开发平台成为当下研究热点。然而,传统的定位技术已无法满足现代化水域资源开发平台的需求。因此,亟需研制集掘进、锚定和自主脱附能力于一体的锚泊定位技术。首先,本文基于长竹蛏的作业机理,完成了锚泊机器人结构设计,并开展了运动模型分析。为了研究锚泊机器人掘进的高效性,本文从锚泊机器人所在的运动环境介质进行分析,在干燥环境介质阻力模型中对土壤的两种坍塌模式及其主导地位开展了有
学位
蛋白质在材料表面的吸附是导致生物附着的第一步,因此通过调控材料表面与蛋白质之间的疏水相互作用,从而达到控制蛋白质在表面的吸附是非常重要的。本工作将一种基于聚2-甲基-2-噁唑啉-random-甲基丙烯酸缩水甘油酯接枝共聚物(PMOXA-r-GMA)和聚(甲基丙烯酸缩水甘油酯-b-N-异丙基丙烯酰胺-b-苯乙烯)嵌段共聚物(PGMA-b-PNIPAM-b-PSt)的温度响应性混合刷涂层用于蛋白质吸附
学位