图像描述生成中的若干关键技术研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:cupcome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算技术的高速发展和大规模数据集的提出,深度学习技术分别在计算机视觉和自然语言处理两个单模态领域上取得了突破性的成果。然而真实世界中的问题通常涉及多模态信息,因此研究者们在先前基础上开始聚焦于计算机视觉和自然语言处理的交叉领域。近年来,联合视觉和语言的相关任务成为研究热点,其中图像描述生成任务是提出最早,同时也是最基础和最重要的任务之一。图像描述生成任务要求计算机能准确且流畅地用自然语言描述图像中的内容。由于其具有的理论和实用价值,该任务自从被提出就受到了国内外学界和工业界的广泛关注。从2015年开始,基于深度学习的编码解码框架开始在研究社区中流行,并一直蓬勃发展至今,同时也取得了令人印象深刻的结果。然而该任务上的研究依然存在以下问题:第一,大多数现有方法专注于生成和图像全局语义匹配的描述性语言,而忽略了生成过程中的局部匹配,进而影响了系统的可解释性和可靠性;第二,大多数现有方法选择从左到右地生成描述语言,这种方法虽然直观,但是不能利用更丰富的双向语言信息和约束;第三,在加速图像描述生成的运行方面,现有方法没有很好地达到速度、生成质量及训练方式简易性三者间的平衡;第四,现有的基于视觉语言预训练的图像描述生成模型虽然很大程度上提升了生成描述的质量,但是它们需要消耗庞大的计算资源,并有被大公司垄断的趋势。这给图像描述生成的研究设置了无形的壁垒。为此,本文针对上述图像描述生成中的问题开展了一系列的研究,主要的研究内容如下:1.提出了一种用于增强图像描述生成模型局部对齐的弱监督方法。本文先提出了一种词性增强的图文匹配模型,然后利用蒸馏学习得到该模型内部更准确的图文局部对齐关系,并将其作为图像描述生成模型中视觉注意力模块的显式监督信号来改善图像描述生成模型的局部对齐。最后本文还探索了将图文匹配分数作为强化学习的奖励来隐式地改善局部对齐性。实验表明该方法能够有效地提升图像描述生成模型的局部对齐准确度和可解释性。2.提出了一种用于增强图像描述生成约束和信息利用的紧凑双向模型。本文提出了一种可以利用双向语言信息和约束的紧凑双向图像描述生成模型。具体来说,本文利用单个图像描述生成模型同时处理句子的正向和反向生成,并且可选择性地允许双向信息交互,最后从正向和反向中选择概率最高的描述作为输出。本文还将常规单流强化学习在此架构下扩展到了双向版本。实验表明这种结构能够利用双向上下文为图像描述生成提供更好的约束,同时能够自然地实现句子级别的集成且可并行执行,并达到了先进的性能。3.提出了一种用于兼顾图像描述生成速度、质量及训练简易性的方法。本文引入了一种半自动回归的结构。在该结构下,组内单词是以完全并行的方式生成,组间仍然保持原有的自动回归生成方式。这种方法可以通过调节组的大小来控制速度与质量间的均衡,并且可以直接继承原有自动回归生成的训练方式。本文进一步利用句子级别的奖励分数,通过强化学习缓解了局部并行导致的不连贯性。实验表明该方法很好地兼顾了图像描述生成速度、质量及训练简易性。4.提出了一种基于预训练的计算资源友好型的图像描述生成替代模型。本文站在大规模预训练的语言模型和视觉模型的肩膀上,基于‘选择交互转换’的设计原则,设计了两个高效的小连接网络连接它们用于图像描述生成。实验表明提出的模型可以获得与当前最好的生成式视觉语言预训练模型相当的性能,与此同时它消耗更少的资源,收敛得更快,使该领域的研究更加开放。
其他文献
光电子器件是利用半导体光-电子(或电-光子)转换效应制成的各种功能器件。在家用相机、军用夜视仪、导弹预警、医学检测、人脸识别、天空预警等领域具有重要的研究价值和广阔的应用前景。作为近十年来的明星材料,钙钛矿具有高的光吸收系数、可调的禁带宽度、高的载流子迁移率、低廉的制备成本等优势,有望替代传统半导体Si材料,成为构筑高性能光电子器件的理想材料之一。研究基于钙钛矿半导体的各类光电子器件,对于推动钙钛
学位
上白垩统红杂色层为松辽盆地南部含铀目标层位,长期以来该套含铀层位的划分问题一直悬而未决,同时前人大部分研究仅聚焦于铀矿带范围内,矿带外围以及南部区域上研究程度较低,缺乏系统认识。为准确厘定含矿层位,明确上白垩统红杂色层沉积充填演化特征与砂岩型铀矿的关系,论文综合运用地层学、沉积学、砂岩型铀成矿理论,利用岩心、钻井、测井和地震等资料对其进行了重新认识和系统研究。研究结果表明,目前被核工业系统笼统归为
学位
本研究通过对外植体及其消毒方法、生根培养激素组合的筛选,建立了芦笋腋芽一步成苗的组培快繁方法。结果表明,以5~10 mm腋芽为外植体,接种在1/2MS+0.05 mg/L NAA+0.1 mg/L KT+1.0 mg/L嘧啶醇+1.0 mg/L IBA+2%蔗糖+0.65%琼脂的培养基上,30天左右即可生根,45天左右根长可达1 cm;再生根可分为3种类型,即从芽基部长出的粗壮肉质根(Ⅰ型)、从愈
期刊
现代无线通信系统技术在民用和军用中迅速发展,促使其对天线的高信道容量、高速率提出越来越严苛的要求。传统的天线设计需要技术人员具备丰富的经验并进行多次的优化测试。如今,特征模分析作为一种新型辅助天线设计的工具,它可以在添加馈电结构之前就对天线进行定性分析,揭示了天线潜在的多种模式,这些模式只和作为辐射本体的材料、大小等固有属性有关,天线设计者可以根据这些模式对天线有整体的把控,颠覆了传统的设计过程。
学位
经典纠错码理论是传统数字通信的一个重要保障。有限域上的线性码是经典纠错码的一个重要内容。其中广义Reed-Solomon码和常循环码就是两类有着良好代数结构的线性码,在纠错码理论中发挥着重要的作用。类似地,量子纠错码(量子码)是量子计算和量子通信的一个重要保障。量子码和经典纠错码有着本质的区别,但利用经典的线性码却可以构造出一些具有优良参数的量子码。本文主要研究了有限域上的几类广义Reed-Sol
学位
<正>党的十九届五中全会通过的“十四五”提出,要增强产业链供应链现代化水平。这是促进产业向高质量发展、建设制造强大国家的主要手段,是面对百年来从未有过的大变局和全球产业链供应链大动荡大整合的正确选择,也是全面开启建设社会主义现代化国家新的开始新的征程,迅速构建国内大循环和国内国际双循环相辅相成的新发展格局的重要要求。要充分认识产业链供应链自主可控和现代化发展对于国家促进现代化建设和构建新发展格局至
期刊
随着社交平台的不断发展,越来越多的社交推荐方法被提出用于缓解推荐系统的数据稀疏性问题,提高产品推荐性能,满足用户更高的个性化需求。然而,大多数社交推荐基于以下约束:用户必须是在有历史产品交互记录的基础上,同时具有社交关系,这样才能学习用户潜在的兴趣偏好。而在真实场景中,绝大多数用户往往只具备社交关系而无历史产品交互记录。因此,解决这类社交冷启动用户的个性化推荐问题,可以很大程度上提升用户体验,增加
学位
深度卷积神经网络在计算机视觉、自然语言处理等领域取得了超越传统方法的优异性能,然而,随着网络规模的增加和各种复杂结构的出现,在诸如自动驾驶、可穿戴设备、智能机器人等内存和算力有限的场景,应用和部署深度卷积神经网络难度较大,限制了卷积网络和相关任务的应用发展。因此,在精度损失较小的情况下,对深度卷积神经网络的压缩进行理论分析并建立高效的压缩模型是十分必要和紧迫的。目前,已有研究揭示了深度卷积网络中存
学位
绿色发展是否具有包容性对于缩小地区间收入差距和实现共同富裕至关重要,如何有效利用金融体系变革契机来提升包容性绿色发展水平成为新时代助力高质量发展的关键环节。本文从资金融通和技术创新视角研究数字普惠金融对包容性绿色发展水平提升的影响效应。研究发现:数字普惠金融体系的确立与完善整体上提升了一地区包容性绿色发展水平,机制分析表明,其主要是通过缓解融资约束偏向效应和激发技术创新双向效应来实现这一目的。同时
学位
进入信息化时代后,半导体技术的飞速发展极大方便了人们的生活,与此同时人们对半导体器件的性能要求也逐渐提高。为了满足市场需求,半导体器件不断朝着高功率、高电压、大电流的方向发展,随之而来的是严重的发热和散热问题。如果不能将器件产生的热量及时有效的散发出去,器件的温度就会不断升高,当温度升高到一定程度,不仅会降低器件性能、影响可靠性,甚至会造成器件损坏。因此,研究器件的热特性并进行合理的热设计显得至关
学位