基于风格的跨域图像语义描述技术

来源 :湖南大学 | 被引量 : 0次 | 上传用户:tangtang4211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习相关技术的快速发展,尤其是编码器-解码器框架的成功应用极大地提升了图像语义描述的性能。然而,现有模型的高性能主要依赖于标注数据的类别和风格,一旦迁移到不同的场景下,性能往往急剧下降。虽然以对抗学习、双流学习为代表的跨域图像语义描述技术通过缩小源域与目标域之间的差异,在一定程度上解决了图像语义描述的迁移学习问题,但其性能仍不能令人满意,主要原因如下:首先,现有的方法主要关注于缩小源域与目标域之间的视觉、文本差异,缺少对语言风格的深入理解与分析;其次,模型着重学习对图像内容的精准理解,而缺少对自然语言语法结构的学习;最后,图像语义描述的表达方式往往风格单一,缺乏对图像语义多方位的自适应表达能力。针对上述问题,本论文从风格信息、模型结构、训练方式三个方面展开研究来提高跨域图像语义描述技术的性能,主要工作如下:1.在语言风格表达上,本文摒弃传统迁移学习中语言风格的二元划分(源域风格与目标域风格),采用成分句法树结构度量语言风格,通过结构化聚类算法将语言风格划分成多种不同的类型,更具合理性。2.在模型设计上,本文提出了基于“指导门”的I-LSTM结构,解码器通过指导门单独接受词性指令信息,模型同时完成图像语义描述与自然语言语法结构的学习。3.在模型训练上,本文除了传统的图像语义描述损失函数外,引入了风格匹配损失函数度量生成语句的风格一致性。因而,模型能够自适应地根据不同风格指令生成多种描述语句,从而能够从多方位灵活地描述图像语义。为了验证本文方法的有效性,本文以MSCOCO为源数据集,Flickr30K、Oxford-102和CUB-200为目标数据集进行了大量的实验。实验结果显示,本文提出的风格指导跨域图像语义描述技术在METEOR和CIDEr指标上取得了明显的性能提升,从而证明了风格信息对跨域图像语义描述任务的有效性。同时,与其他前沿方法相比,该模型在一定程度上解决了图像语义描述任务中文本生成的多样性问题,且有一定的性能提升。
其他文献
随着科学技术的迅速发展,产生了大量的张量数据,张量分解问题在各个领域内广泛的存在,得到众多科学家的关注,例如化学计量学、生物学、信号图像处理、盲源分离、统计学及计算机网络等学科.在复杂体系下存在未知干扰的对感兴趣目标物质浓度的测量问题是化学计量学中一类重要问题,采用数学分离的定量分析策略是其研究的热点方向,目前建立的模型多是无约束分解模型,交替三线性分解算法(ATLD)是其中速度快、内存占用少的一
森林资源制图是森林资源调查、监测和管理的重要依据,其中树种分类是森林制图的基础。通过识别树木种类可以调查植被的空间分布、森林结构的组成及资源的动态变化。机载高光谱影像同时具备很高的空间分辨率和光谱分辨率,并且获取成本低,为树种分类提供了一种优质的数据源。随着深度学习理论的发展,研究人员将其引入到高光谱图像处理中。然而,基于深度学习的高光谱图像分类需要大量的训练样本,树种标签要通过野外勘察才能获得,
网络研讨会的诞生是为了解决传统线下研讨会存在的组织费时费力、受时空限制、参会体验差等诸多问题。网络研讨会应用软件是针对公开讲座、学术研讨等大型会议场景的一类视频会议软件,虽然解决了传统研讨会受时空地域限制等问题,但目前网络研讨会的用户体验依然存在演讲者难了解观众的状态、观众参与度较低、缺乏互动参与感等问题。目前关于网络研讨会的研究大多从技术实现原理的角度出发,有关网络研讨会用户体验及交互设计方面的
农业的发展过程面临诸多风险,自然灾害、农户疏忽都有可能给农户带来巨大经济损失,导致其陷入贫困,所以具有转移和分散农业风险功能的农业保险在缓解贫困上的重要性不言而喻。“十三五”期间,农业保险在缓解、消除贫困等工作方面取得了较好成效,“十四五”期间我国将继续推进农业保险,从保险业的角度提供缓解农民贫困、防止返贫出现的建议方案,巩固脱贫攻坚成果的同时助力乡村振兴战略发展。湖南省是我国粮食生产大省,同时也
辛弗林是一种生物碱,是枳实中的一种重要活性成分,广泛应用于医药、食品等行业,用于体重管理、运动表现和能量控制。已有多项研究表明,辛弗林在体内可通过多种机制发挥作用,包括与调节脂质和碳水化合物代谢的β-3肾上腺素受体、NMUR2s和AMP活化蛋白激酶、c AMP和Ca2+依赖机制的结合等。本研究通过16S r DNA高通量测序技术和非靶向代谢组学技术,从肠道菌群菌群及粪便代谢产物两个角度探讨辛弗林对
目前关于董事责任保险的治理效应并未取得学者们的一致认同,有关研究则表示该险种兼备“激励”和“庇护”的双面影响,那么引入该产品最终是有利于上市公司完善内部治理,进而提升投资效率,抑或是加剧董监高发生道德风险和机会主义行为的可能性,反而降低了投资效率,关于这方面的研究各个学者基于不同的视角得出的结论并不相同,还需进一步检验和分析。本文基于我国投资者维权意识的提升以及金融市场不断规范的背景下,从生命周期
近年来,智能制造以其智能性、协作性和柔性等显著优势,一步步取代传统制造业,成为了制造业发展的重点。医药制造是智能制造的重点领域,与人们的健康福祉息息相关。随着全球医药市场规模的不断增长,人们对药品的质量、生产效率和工艺等也提出了更高的要求。近些年,我国推出“中国制造2025”政策,持续深入推进医药改革,推动医药制造产业发展从机械化、电气化向自动化、智能化方向迈进。自主感知、自主决策和自主执行等高端
时变矩阵求逆问题广泛出现在现代科学研究和工程实践中,特别是自动控制和信号处理领域,时变计算问题的求解是其中的关键步骤。目前已有的求解矩阵逆的方法大多为适用于静态矩阵的数值迭代方法,在应对带有时间系数的矩阵时存在时间复杂度较高,计算的时效性较差等问题。另一方面,随着研究的深入,许多出现在信号分析、图像处理和机器人控制等工程应用中的问题可以被建模成复数时变问题,其中较为常见的就是复数时变矩阵求逆。由于
超短脉冲动力学在光子学技术应用中扮演着重要的角色,例如高阶孤子分裂、共振辐射和超连续谱的产生等。基于孤子色散波动力学的光纤光学视界的模拟引起了学者们的研究兴趣。当强度不同的两束脉冲共同传输于光纤中并发生碰撞时,强脉冲感应的折射率变化将影响探测脉冲的运动轨迹,探测脉冲被反射并经历波长转换。这种光纤中由双脉冲碰撞引起的频率转换可以理解为四波混频行为。当新频率分量与高阶孤子分裂辐射出的色散波在时域上重叠
本文基于国内某自主品牌八挡AT(Automatic Transmission)自动变速器的各项参数要求,对其电液控制系统的液压原理图进行设计,根据设计好的液压原理图搭建电液控制系统并进行仿真分析;然后在仿真分析的基础上对其各主要零部件进行了重新设计开发,并制作了相应的电液控制模块;最后,对该控制模块样件进行了台架试验验证。具体工作内容如下:(1)详细介绍八挡AT自动变速器的结构组成及其工作原理,根