基于深度学习的图像字幕生成任务的关键问题研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zhuang321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像字幕生成是一项连接计算机视觉和自然语言处理的跨媒体理解任务。其目标是生成给定图像的自然语言描述,在帮助视障人士感知世界、人机交互等方面具有重要的实际应用价值。随着深度学习的快速发展,图像字幕生成模型的性能得到了稳步提升。然而,这些模型的训练方式比较有限,通常只包括交叉熵训练和自批评序列训练。而在与图像字幕相似的机器翻译领域,知识蒸馏已经成为了一种提升模型性能的成熟训练技术。但是目前几乎没有工作系统的在图像字幕生成任务中运用知识蒸馏技术。同时,以往关于图像字幕的研究主要集中在改进语言生成模型,而系统对比并改进视觉特征的相关工作比较少。针对图像字幕任务存在的问题,本文主要完成了以下两个方面的工作:(1)本文提出基于知识蒸馏的图像字幕生成模型。具体来说,先将标准的单词级知识蒸馏应用于图像字幕模型,为了研究不同教师模型对蒸馏结果的影响,比较了自蒸馏和跨模型蒸馏(即教师和学生模型具有相同或不同类型的结构)这两种方式。其次,受序列级知识蒸馏在神经机器翻译任务上取得了较好效果的启发,本文提出将序列级别知识蒸馏应用到图像字幕生成中。在MS-COCO数据集上的实验证实:本文提出的将知识蒸馏运用到图像字幕生成模型的方法可在节省计算资源和时间的同时获得性能的提升。具体来说,自蒸馏是提高图像字幕模型性能的便捷选择,节省了选择教师模型的时间;序列级别的知识蒸馏可以用更少的数据和计算资源达到比肩正常数据集训练的结果。(2)本文提出了基于改进视觉特征和强化奖励的图像字幕生成模型。通过实验对比分析各种常用的视觉特征后,本文发现经过大规模图文对比学习预训练的CLIP(Contrastive Language-Image Pre-training)模型提取的视觉特征具有特有的优势。本文利用CNN和Vision Transformer(Vi T)框架具有不同的视觉感知方式,通过级联CLIP模型提取的两种视觉特征CLIP-Res Net和CLIP-Vi T,并利用它们的互补视觉信息进行融合。最后,本文将CLIP模型视为图文匹配的打分器,根据图像和候选字幕给出分数CLIPScore,利用此分数用来补充原始强化学习的奖励(reward)函数。通过实验证明上述两种方法均能改善生成字幕的质量。
其他文献
我国是世界上柚种植面积最大的国家,柚产量位居世界第一,但柚的分等分级仍依赖人工,费时费力,亟需提升商品化处理装备的检测水平与生产效率。本文以琯溪蜜柚为研究对象,研究了琯溪蜜柚三维重建与孔洞补全等关键技术问题,建立了基于三维模型的蜜柚体积、密度、纵径及横径估测方法。主要研究内容如下:(1)构建了用于蜜柚多视图三维重建的机器视觉系统。该系统主要由光照系统、旋转平台、图像采集装置及采集软件组成。实测了横
目的:对比分析高血压基底节区出血破入脑室(Hypertensive basal ganglia hemorrhage breaking into Ventricles,HBGHBIV)患者采取两种微创手术(神经内镜辅助下血肿清除术+脑室外引流术,显微镜辅助下小骨窗血肿清除术+脑室外引流术)的疗效差异,总结它们各自的优缺点,为临床上相关手术治疗方式的选择提供科学依据。方法:1.通过对我院2019年6
近年来,随着精密制造、虚拟现实等领域的快速发展,能够定量描述某些物体快速三维信息的方法成为领域研究热点。结构光条纹投影技术是一种广泛应用的三维测量技术,然而其需要经过条纹图采集、相位恢复和标定等步骤才能恢复物体的三维面形。该方法测量步骤繁琐、测量速度慢,不利于实现快速三维成像。近几年,深度学习方法广泛应用于计算机视觉和图像处理领域。本文将深度学习技术同结构光三维测量方法相结合,提出了基于深度学习的
据公安部数据统计,截止2021年我国机动车保有量已经达到3.9亿。在汽车保有量大幅增长的压力下,城市拥堵及交通事故频发等问题也随之而来。经研究发现,人为因素是造成各类交通事故和城市拥堵的主要原因,而新兴的自动驾驶技术可能是上述问题的最佳解决方案。高精地图作为自动驾驶技术的重要一环,其制作精度和维护难度都影响着自动驾驶技术的普及。交通标志牌又作为高精地图中重要的道路要素,系统准确地检测和识别也就成为
学生是祖国的未来,班主任作为学生在校学习和生活的第一责任人,肩负着重要的责任和使命。尤其是在当今立德树人与“双减”政策的背景下,班主任的工作显得尤为重要,小学在九年义务教育中的重要地位是不言而喻的,小学生活中,班主任对学生的影响极大,小学班主任的工作投入关系着教育教学管理水平,直接关乎学生的综合发展,更影响着基础教育的发展趋势与发展水平。对班主任的工作投入现状进行调查和研究,可以及时了解班主任群体
目前,互联网技术的快速发展,对人类的生活产生了巨大的影响,越来越多的人们喜欢在网上购物,电子商务市场具有无限的发展潜力。服装作为人们的生活必需品,在电子商务的销售额类别中占据国内数一数二的地位,一直受到消费者和企业的广泛关注,网购服装已经成为一种必然的潮流趋势,但由于网购的虚拟性和激烈的市场竞争,服装电商企业面临着巨大挑战。当前电商平台特有的消费者在线评论功能版块,为消费者和企业提供了一个有效的反
电子病历作为提升医生工作效率、实现诊断信息共享的重要载体近年来应用广泛,但其专业性特征与繁杂内容影响病历制作时效性,提高电子病历录入效率并降低医生工作负荷为当前重要课题。随着智能AI技术快速发展,借助语音识别辅助医生收集病历信息突破传统基于模板的固化电子病历,以语音录入代替键盘输入,随时为医生背书诊疗场景以唤醒其潜在记忆,进而实现个性化病历信息的高效复刻,在提升其工作效率的同时降低工作负荷。因此,
普通混凝土的导热系数较高,导致房屋建筑在使用运营过程中能耗过高,而为了得到足够大的热阻,围护结构往往过厚。为减小热交换,节约能耗,减小围护结构厚度,许多学者把陶粒、膨胀珍珠岩、玻化微珠等保温骨料嵌入混凝土中,而气凝胶相比于传统保温材料拥有更加优异的保温性能。本文把气凝胶掺入水泥基质中以减小其导热系数。本文采用研究了气凝胶掺量对混凝土性能的影响,基于实验数据建立了气凝胶混凝土导热系数预测模型,研究了
表情识别技术是机器学习领域的一个热点和难点问题,在很多领域有着较好的应用前景,快速、精准识别人类面部表情可以满足日渐增长的社会需求。但是,目前的识别技术还存在不同的问题:在表情识别模型进行特征提取阶段,由于表情发生时间短暂、发生的动作幅度小、不同的面部区域发生的表情动作幅度不同,若提取不到更为细致的表情特征,则会导致表情模型的识别率低且泛化能力不足;在表情识别模型训练阶段,由于表情数据样本量不充足
随着城市化进程的加快,人民生活水平不断提高,由此产生的垃圾数量也快速增长。根据相关数据显示,我国约2/3的城市处于垃圾包围之中,目前我国卫生垃圾填埋场大约有两千多座,占地面积超过300万亩,且现有的垃圾填埋场还处于超负荷运行阶段,超过一半的垃圾填埋场已被关闭并进入封场阶段。如何对关闭之后的垃圾填埋场进行转型,是当前国内大部分城市所面临的难题。本文以南京水阁垃圾填埋场为例,从垃圾填埋场研究背景入手,