基于生成对抗网络的语义图像生成模型研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:gailuen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,图像生成已成为计算机视觉领域的一个研究重点和热点问题,基于深度学习架构的图像生成模型不仅能自动为用户生成图像,有助于视觉理解,还推动了跨模态的学习和推理,对视觉计算、图像和语言处理、人机交互等领域的发展与应用具有重要的研究价值。现有生成模型虽然已经实现了简单个体和低分辨率复杂图像的生成,但是,直接从复杂文本或结构化场景描述生成包含多种实体和合理布局的高质量语义图像仍极具挑战性。为了保持输入的文本和相应生成图像的语义一致性,提高由结构化场景图生成的图像质量,增强细粒度纹理信息并确保对象交互关系的准确性,本文基于生成对抗网络构建、分析并实现了文本和场景图到语义图像的生成模型,具体研究内容如下:(1)针对复杂文本描述到图像生成过程中实例特征模糊和核心视觉属性缺失的问题,提出了一种自适应属性和实例掩码的文本到图像生成模型(IMEAAGAN)。首先,为克服整个句子的复杂性和歧义性,该模型计算词级嵌入表示并作为输入数据,同时利用边框回归网络推理包含对象空间位置、大小和类别标签的全局布局。然后,全局生成器对该布局进行编码,并结合文本嵌入和随机噪声初步生成较低分辨率的图像;在局部细化生成器中,使用实例掩码嵌入机制添加像素级别的掩码约束,从而获取实例细粒度特征。最后,采用两个词级自适应属性的判别器代替常用的句级条件判别器,对每种属性进行独立分类并生成精确的特征反馈信号,指导生成器合成具体的视觉属性。实验结果分析表明,该模型可以获取全局一致的属性特征,并生成具有局部纹理细节的复杂图像。(2)针对结构场景图难以生成类别多样的实例和高质量复杂场景布局的问题,提出了一种前景和背景分解的场景图到图像的生成模型(BFD-GAN)。首先,将自然语言转换为结构化的场景图,克服文本描述的歧义性,并利用图卷积网络推理背景语义布局,将前景和背景分解且分别进行生成,从而提高图像质量、降低生成过程的复杂性。然后,为避免劳动密集的人工标记,构建的前景解析模块学习具有可识别几何外观的前景细粒度特征。最后,利用前景-背景融合模块自适应地细化视觉特征,该模块引入前景-关系感知注意力机制,计算前景对交互关系的偏差,并对重叠区域进行最大池化操作,选择最相关的像素实现特征表示,从而使得前景和背景相互兼容并生成合理而真实的复杂图像。实验结果表明,在给定相同场景结构的情况下,BFD-GAN模型能够生成复杂的背景和更清晰的前景图像。
其他文献
带式输送机因其具有运输量大、运输距离长、持续性运输等优点,在港口煤炭运输行业成为了不可替代的运输工具。随着对煤炭需求量的逐渐增加,带式输送机将长时间高负荷生产工作,一旦设备发生故障,产生的经济损失将不可估量。目前基于带式输送机故障诊断主要是依靠人工巡检方式,该巡检方式因其工作量大、诊断效率低等缺点已不再适合当前生产现状。由于发现带式输送机在发生故障时产生的声音信号中包含了大量的故障信息,本文将通过
随着国内外老龄化程度的不断加深,老年人的健康问题得到广泛的关注。脑卒中作为发病率最高、危害较大的疾病,其后遗症所引起的上肢运动功能缺失的问题成为国内外研究的热点。目前,针对患者单侧上肢运动功能缺失的问题,一种方法是通过康复师辅助患者进行康复训练,但这种方法康复师的劳动强度过大;另一种方法是通过康复机器人进行辅助训练,但传统康复机器人只能带动患者进行单一、重复的运动训练,患者参与感低,人机交互能力差
随着人口老龄化的加剧,由于“脑卒中”等原因造成下肢运动障碍的患者逐渐增多,对患者本身造成不便的同时也增加了患者家庭和社会的负担。目前,使用下肢康复机器人对患者进行康复训练成为一种趋势,然而现有步态规划方法忽视了关节运动的协调性,所设计的步态轨迹会导致步行稳定性弱;一些不合理的控制器设计导致轨迹跟踪误差大,收敛速度慢,影响康复训练效果。为解决以上问题,提出一种基于莱维飞行粒子群算法的归一型步态规划法
随着科学技术的发展,人工智能开始逐渐深入我们生活的各个领域。为便于我国读者更好了解国外人工智能发展状况,相关翻译也成为一个重要手段。本实践报告的作者选取由Ronald Ashri所著的《人工智能工作场所》一书的三个章节作为翻译材料进行汉英翻译,并撰写了本翻译实践报告。书中详细介绍了人工智能的发展以及在工作场所中的应用,对于我国未来开发更加智能化的工作场所有一定的借鉴意义。本翻译实践报告首先对本翻译
运煤敞车的粘煤附着现象给煤矿的生产和运输带来了诸多不便,严重影响了煤炭企业、用煤企业的生产和效益,寻求一种安全高效、成本低廉、实时智能的方法来解决运煤敞车卸煤中的粘附问题成为煤炭运输行业亟待解决的关键问题。目前国内外对敞车卸煤存在的余煤残留问题主要的处理方式为人工清理或使用振动器进行清理,前者耗时耗力,清理效率很低;后者虽然能做到实时清理,但清理时噪音很大,且振动力量无法实时控制,容易对运煤车厢造
数字经济是指以数字化信息和知识为关键生产要素的广泛的经济活动。在新冠肺炎疫情肆虐的背景下,数字技术提高了现有产业的生产力,数字经济成为推动各国经济发展的重要动力。因此,需要为数字经济提供一套更为完善的治理体系来加快促进经济复苏和产业转型。译者选取了中国通信院于2019年12月发布的《数字经济治理白皮书(2019)》作为翻译任务的源文本,对其中三章进行翻译。所选部分全面概述了数字经济治理的现状和挑战
知识图谱是对实体间丰富关系的结构化信息编码,它旨在以三元组的形式将真实世界的事实组织成计算机可阅读的结构。其中三元组的具体表示形式为(h,r,t),h表示头实体,t表示尾实体,h和t之间的关系表示为r。可以看出,这种组织形式使知识图谱表现出严格的逻辑规则和分散的符号特征,在众多领域的应用中受到限制。为此人们提出了面向知识图谱的表示学习方法,将知识图谱中的每个元素(实体和关系)编码到一个连续的低维向
我国是一个统一的多民族国家,悠久的历史积累下了很多光辉灿烂的优秀文化,家谱就是其中不可替代的一部分。家谱不仅记载了一个家族的兴衰成败,还反应了当时社会的历史文化背景,是一种具有独特功能的人文资料。孔子世家谱记载了以孔子为始祖的孔氏族人的世系繁衍信息,承载了中华儒家文化的精神与灵魂,因此,深入探索孔子世家谱内容的语义表示、语义推理及其应用具有至关重要的研究价值和现实意义。知识问答系统是融合结构化与非
研究目的:毒品成瘾已经成为危害全球的公共安全卫生问题,且各种治疗方法的局限性明显,而运动干预戒毒以成本低、方便、安全、有效等优点逐渐成为研究的焦点。目前大量研究证实运动训练能够促进毒品成瘾者身心健康,但不同训练模式对成瘾者的干预效果尚不清楚。本研究基于毒品成瘾环路,旨在探讨高强度间歇训练和中等强度持续训练对毒品成瘾的康复作用。研究方法:以兰州市公安局强制隔离戒毒所戒毒人员为实验对象,选取符合条件的
伴随着运输业的稳定发展和煤炭需求的持续增长,用于运输煤炭的带式输送机在港口、煤矿等场所发挥着巨大的作用。带式输送机在运行过程中容易出现各种系统故障,其中主要包括输送带撕裂、输送带跑偏和托辊损坏,这些故障往往会造成不可估量的经济损失和安全事故,所以针对带式输送机的故障诊断就成为了一个亟需解决的难题。带式输送机故障区域温度较非故障区域更高,而红外图像是一种体现目标温度的图像,可以针对性地进行故障诊断,