基于条件图像生成的文本语义图像合成技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:wyb112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的推进以及用户需求的不断更新,人工智能领域对于文本和图像的研究不再局限于单一的自然语言处理任务或者计算机视觉任务,整合这两种不同模态数据的跨模态学习开始受到人们的重视,并展现出了巨大的应用前景。文本语义图像合成作为一种结合文本和图像数据的跨模态图像生成任务,能够更好地适应日益多元化、复杂化的应用场景,满足用户的多样化需求。因此,该任务逐渐成为了跨模态学习领域的一个研究热点。本文是关于文本语义图像合成的研究,针对该任务当前面临的一些困境,探索有效的解决方案,进一步丰富文本和图像跨模态图像生成领域的研究内容。文本语义图像合成旨在通过给定的文本描述,对图像特定的视觉属性进行相应的编辑,同时保护原始图像中与文本无关的信息不被破环,进而得到期望的生成图像。不同于一般的图像生成任务,文本语义图像合成任务需要克服文本和图像之间的语义鸿沟及异构鸿沟,结合文本和图像的跨模态语义信息进行合理的图像生成。然而,现有的一些方法在根据文本描述编辑图像时,要么严重的破坏原始图像中与文本无关的视觉属性,要么难以重建符合文本描述的复杂纹理细节,使得生成的图像不尽人意。针对这些问题,本文从条件图像生成思想出发,提出了一个基于空洞残差聚集的条件生成模型(Dilated Residual Aggregation GAN,DRA-GAN),用于根据文本描述进行合理的图像编辑。特别地,我们在DRA-GAN的生成器中设计了一个三重注意力导向的信息注入模块(TAIM),用以融合文本和图像的跨模态语义信息,使得模型关注原始图像中与文本相关的视觉属性,而不是无关属性。进一步,在TAIM模块的基础上,我们提出一个空洞残差特征聚集网络(DRANet),利用长远距离残差连接来聚集网络中具备丰富高级语义信息和空间位置信息的中间层特征,并通过空洞卷积融合聚集的中间层特征,在不牺牲特征空间分辨率的前提下,快速提高感受野,捕获多级语义信息,有利于在生成图像中重建与文本描述匹配的复杂纹理细节,进而提高生成图像的质量。为了验证所提出的DRA-GAN模型的性能,本文在CUB-200-2011和Oxford-102两个公开的数据集上进行了的定性和定量实验比较。实验结果表明,本文提出的DRA-GAN模型相比于现有的一些方法,具备更加优秀的性能,能够根据文本描述进行高质量的语义图像合成。
其他文献
纳米孔已经成为一类特殊的单分子分析工具,为检测和表征核酸和蛋白质等生物分子提供了巨大的潜力。作为生物纳米孔的替代品,固态纳米孔由于其在孔隙几何和孔径尺寸上的大范围可调性以及其优异的机械特性和电学特性而呈现出显著的多功能性。本文采用离子电流监测机制辅助的各项异性湿法刻蚀法进行锥形硅基固态纳米孔的制备,在满足低成本、批量化、可控性制备需求的同时,将制备工艺节点推进至亚5nm。围绕上述主题,本文主要研究
学位
随着互联网信息科技的发展,人们在日常生活需要处理各式各样的信息,信息过载成为人们快速获取需要的信息内容的一个重大难题。推荐系统的出现无论是对于业务需要的高效工作,还是日常生活的品质体验,都帮助人们大大减轻了筛选信息的工作,带来巨大的帮助和收益。推荐系统的实现方法是根据学习用户或项目本身的属性信息,以及用户与项目的历史交互信息来挖掘用户可能感兴趣的项目。但传统的推荐算法只关注于用户和项目的直接交互数
学位
社交媒体中存在着大量的用户情感信息,企业决策者们不仅希望了解用户情感,还希望了解相应的原因,以帮助他们从用户层面思考和优化产品。在这样的需求下,情感原因检测成为自然语言处理中具有重要价值和应用前景的任务之一,并逐渐发展为情感原因对提取任务(ECPE)。传统的二阶段ECPE模型存在着模型错误传递无法修正的问题,尽管后来的端到端模型解决了这一问题,但仍存在着文档事件特征利用不充分、混淆因子夹杂的问题。
学位
命名实体识别作为自然语言处理领域中的基本任务,可以从非结构化的文本数据中提取实体信息,在问答系统、信息抽取、阅读理解等其他自然语言处理领域任务起重要支撑作用。在文本数据爆炸式增加、GPU计算能力快速提升的背景下,深度学习被应用于解决命名实体识别问题并取得了良好的效果,成为解决该领域问题的主流方案。虽然命名实体识别技术取得了迅猛发展,但许多命名实体识别研究都是在英文领域,中文领域的命名实体识别依然存
学位
组合设备是一种高度自动化集成制造系统,能够对单枚晶圆进行高效且精确的加工。因此,它被广泛应用于半导体芯片制造。组合设备由一对真空锁、一个传输模块以及若干个加工模块组合在一真空环境中。随着半导体芯片制程日益复杂,由若干台组合设备通过缓冲模块耦合而成的多组合设备逐渐被晶圆厂采用。由于组合设备的价格不菲,因此寻找有效的调度与控制方法提高其利用率和回报率,是非常有必要的。近几年来,芯片产品种类多样化,晶圆
学位
随着信息技术推动全球由传统工业进入信息社会,农业也迈入数字化、智能化的新时代。研究基于三维点云技术的植物形状表达与表型分析,对促进农业的高产量、高质量生产具有至关重要的意义。然而,对植物幼苗进行三维重建,常存在户外环境光线不稳定、叶片间的遮挡、摄像头视野限制、扫描精度过低等因素导致植物幼苗点云出现噪声、稀疏、缺失的情况,影响了植物表型分析的准确度。因此,研究植株点云数据的修补算法,能辅助植物三维形
学位
随着互联网的发展,信息量指数增长,如何从大量信息中获取所需要的信息是一个重要问题,因此,信息抽取的相关技术研究愈发重要。事件检测是自然语言处理中事件抽取任务的子任务,是信息抽取中的一个重要方向。给定一段文本,事件检测旨在从中检测出潜在的事件类型。目前的事件检测主流是对文本中的触发词进行识别,并判断该触发词属于哪个事件类型。这种基于触发词的事件检测方式会加大数据标注的工作开销,此外,在事件检测任务中
学位
故障诊断是设备维护中的关键部分,轴承作为现代机械设备中的基础元件更是维护过程中的关键部分。由于滚动轴承受各种复杂因素的影响,使之成为整个旋转机械系统中可靠性最差的零部件之一。传统的轴承故障诊断方法以人工设计降噪、滤波、特征提取为主,手动提取特征的过程相对繁琐,且需要一定的背景知识,在面对海量数据集时越来越力不能及。此外,轴承工作周期跨度大,工况复杂多变,这也使得手动提取特征愈发困难。随着深度学习的
学位
随着硬件计算能力提升与众多深度学习方法的普及,行为识别算法逐渐应用于现实中。基于骨骼的行为识别算法是行为识别领域下的一个热门研究领域,吸引了不少研究人员的目光。众所周知,相对于深度学习方法,传统方法可以在较少样本情况下较快地进行训练与预测,但是准确率有所不足;而深度学习方法可以得到较高的准确率,但是需要较多样本用以训练并且计算量较大。这启发我们将传统方法与深度学习方法进行结合,使传统方法与深度学习
学位
情感分析(Sentiment analysis)是自然语言处理的重要领域之一,其目的是从各种数据源中收集基于特定主题的主观意见或感受。但是情感分析在带有复合情感的句子中可能无法准确分析出不同方面情感倾向。因此更具细粒度的情感分析任务,方面级的情感分析(Aspect-based sentiment analysis)被提出,这个任务旨在识别出被分析主体涉及到的多个方面的情感倾向。方面情感分析由多个子
学位