基于跨模态关联的文本到图像生成系统研究与设计

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:happy08080808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文本描述的图像生成任务是根据文本描述生成符合描述的图像的研究任务。这一颇具挑战性的研究任务因其潜在的应用价值受到了跨模态研究领域的广泛关注。当前的研究方法大多是通过生成对抗网络来建立深度学习模型。这些文本到图像生成模型往往是以全局语言表示为生成条件来生成符合文本描述的图像。然而,由于全局语言表示在高维空间中的分布往往是稀疏的,这导致生成对抗网络十分难以训练,并且模型生成的图像缺乏细粒度的信息。本文认为,基于文本描述的图像生成任务除了使用全局语言表示作为生成条件之外,还应该充分考虑局部语言表示对文本到图像生成模型的影响。同时,作为一个具有商业可落地的算法模型,其计算代价以及对硬件的需求应该在合理的范围之内。然而,当前的文本到图像生成模型往往是非常消耗显存资源的。这因为多数现有模型都堆叠了多个生成对抗网络来完成任务。因此,本文认为应该用一个生成对抗网络来完成全部工作。基于以上诉求,本文首先提出了基于跨模态关联的文本到图像生成算法模型CGL-GAN。CGL-GAN通过一个生成器来根据文本描述生成目标图像,一个判别器来判断输入图像是否足够真实并且符合文本描述。在判别器中,本文提出跨模态投影算法,通过将图像的高抽象层次和低抽象层次的表示分别投影到全局和局部的语言表示上,以此来构造跨模态关联。最后,本文设计了基于合页损失的损失函数来训练CGL-GAN模型,并在CUB和MS-COCO两个公开的数据集上对CGL-GAN进行了实验评估。大量的实验表明,将细粒度的局部语言信息与图像信息进行跨模态关联能大大提高基于文本描述的图像生成模型的性能,并可以生成高像素的图像。基于CGL-GAN算法模型,本文设计并实现了一个基于文本描述的图像生成系统。本文完成了基于文本描述的图像生成系统的需求分析,概要设计,详细设计以及数据库设计,并对系统进行了功能测试和性能测试。系统测试结果表明系统完成了所有功能需求,可以良好地在线上运行,并且对服务器的负载比较低。系统测试证明了本文开发的基于文本描述的图像生成系统完成了预期的需求,具有潜在的商业应用价值。
其他文献
不锈钢材料性能优良,外观精美,广泛应用于制造业各个领域。通过熔盐电解扩散和水溶液电沉积两种方法制备了碳钢/不锈钢梯度材料,并对NiO的溶解度,Cr(Ⅲ)和Ni(Ⅱ)离子的电化学还原机理、电结晶机理进行研究,应用SEM、EDS、XRD、辉光放电光谱仪(GDS)等技术对所得试样的组织和性能进行表征。750℃时,采用等温饱和法研究了NiO在NaCl-KCl-NaF-Cr_2O_3熔盐体系中的饱和溶解时间
火烧油层是提高原油采收率的重要方法之一。在稠油火驱采油过程中,电点火技术是通过地面控制系统向电点火装置发热元件输送电能,产生油层点火所需热量,其热量通过空气压缩机注入的空气带入油层,从而点燃油层的技术。电点火技术具有安全性高、点火成功率高、温度可控制等优势。但是,现有的电点火技术存在热量利用率低、电点火装置尺寸过大等缺陷,导致电点火装置不易下入和起出油井,造成很大的经济损失。为此,本文研究了电点火
气象雷达起源于上个世纪中期,经过了几十年的发展,如今已成为天气预测,灾害预防等领域最重要的工具之一。当前,最新型的气象雷达为多普勒脉冲雷达。它利用发射、接收电磁波并根据反射波的强度生成气象雷达图像数据。过去,利用传统方法对气象雷达图像数据进行处理在效率与准确性上都存在一定不足。随着近年来人工智能技术的发展,利用深度学习技术对图像数据进行处理的方式已经得到了越来越广泛的应用。深度学习技术通过设计特定
毕达哥拉斯模糊集是直觉模糊集的一种有效拓展,能更好的表达决策信息。作为一种新兴的直觉模糊集,毕达哥拉斯模糊集的相关研究需要进一步完善。本文对毕达哥拉斯模糊集的相关性质以及毕达哥拉斯模糊数在多属性决策中的应用进行了研究。(1)首先考虑隶属度和非隶属度的相互影响,定义了不同毕达哥拉斯模糊数之间的运算公式,讨论了相关性质。(2)针对已有的记分函数和准确度函数的不足,在考虑了支持、反对、犹豫三方面信息之后
城市化进程中的乡村文化危机一直是困扰着改革开放后国人的一大问题。青少年逃离乡土,对故乡的疏离感,导致一代人甚至是很多代人乡土文化情感的缺失。乡土文化教育不仅仅是热
形式概念分析理论(FCA)也称概念格理论,形式概念分析研究的基础是形式背景,行为对象,列为属性的布尔型二维表可表示形式背景。由对象与属性的二元关系可建立一种概念层次结构,可用于概念排序、概念推理及概念表示。形式概念分析作为一种有效的数据分析工具,广泛应用于诸多领域。决策形式背景的属性约简是形式概念分析的重要研究内容,基于经典概念格的决策形式背景属性约简有决策规则的约简,粒约简,强协调约简等等。三支
该研究旨在了解大学生父母教养方式、孤独感和学校适应的基本情况以及三者的关系,并基于相关性研究,针对性地设计降低大学生孤独感主题的团体辅导,探索提高他们的学校适应的有效途径。本文由相关研究和干预研究两部分组成,研究一采用父母教养方式问卷、UCLA孤独量表和大学生学校适应问卷对747名大学生进行问卷调查,以收集到的数据检验三个变量间的关系模型,验证孤独感在父母教养方式与学校适应间的中介效应。基于研究一
学位
微震技术已广泛应用于煤岩动力灾害监测预警、油田压裂、边坡稳定性分析等领域。由于监测环境的复杂性及仪器自身局限性,实际监测到的矿山微震信号在采集、传输过程中受到了
近年来,遥感影像的空间分辨率不断提高,数量级达到了分米级,在高分辨率遥感影像中,地面信息更加丰富,其中建筑物是地表信息中的重要组成部分之一,如何快速准确地提取影像中的建筑物一直是研究的热点问题。传统的建筑物提取算法主要是通过对像素光谱信息的处理以得到目标地物,但是,由于遥感影像数据量巨大,更新速度较快,目视解译与基于像素的提取方法已不能满足实际需求,需要探索提取高分辨遥感图像信息的新方法。深度学习
软件工程师在开发过程中会耗费大量时间针对编程语言特性、API使用规范、算法实现等诸多内容进行搜索。而随着现代软件开发规模的增大,代码检索(Code Retrieval)在软件开发过程中的重要性也随之增大。新手开发者和学生能够通过代码检索工具进行学习,富有经验的开发者也能通过代码检索工具加快开发进度。代码检索研究领域属于软件工程与信息检索研究的交叉领域。代码检索旨在提供与符合用户意图的代码片段以增强