基于深度学习的条件式视觉内容生成研究及应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:longshentailang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的快速发展和计算能力的不断提高,条件式视觉内容生成技术蓬勃发展并取得了许多瞩目的科研成果,在火热的泛娱乐、元宇宙和虚拟人等领域具有极大的应用价值。然而,受限于当前技术与高标准应用需求之间的差距,生成模型在效率和易用性等方面有待进一步提高,且如何通过给定的条件输入(如图像,音频,运动信息等)生成高质量且合理的视觉内容仍是当前面对的棘手问题。本文聚焦基于深度学习的条件式视觉内容生成技术,按照对信息理解程度逐渐升高的原则,由浅及深地对不同层次的问题进行分类总结并展开具体研究。一方面,低层次的图像像素级任务核心关注局部结构感知及分布预测问题,面临的最大挑战是如何生成合理且高质量的图像,以及设计高效的模型来支持各种终端应用。另一方面,高层次的图像语义级生成任务不仅需要理解图像中的语义信息,同时对高分辨率、高精度生成模型研究及训练优化提出了极大挑战。尤其过渡到视频生成任务中这些难点愈发凸显,且需要额外地对时序合理性及生成多样性进行建模。针对上述挑战,本文研究典型的图像上色和超分辨率任务,以期从低层次的感知中生成更高质量的视觉内容;以及语义层面的人脸换脸、人脸驱动和图像动态化任务,以期从高层次的理解中可控地生成更丰富的图像和视频。本文的研究内容与主要创新点如下:1.从局部结构感知的图像增强出发,本文针对图像上色和超分辨率问题展开研究,提出了一种高效的联合图像上色和超分辨率端到端框架,设计了金字塔阀控交叉注意力模块以支持自动和参考两种上色模式,不仅能更好地理解并聚合参考图像的颜色信息,同时具有较强的解释性。此外,本文针对任意倍率图像放大应用需求提出了连续像素映射模块,使用更少计算量的同时提升了模型的预测精度。2.从多条件受限的图像纹理语义迁移出发,本文针对人脸换脸问题展开研究,提出了一种基于区域注意力感知的换脸方法以对人脸进行更精细的建模,其包含新颖的面部区域感知的局部分支和源特征适应的全局分支:前者通过引入全局注意力机制来有效地建模不重合的多尺度面部语义交互,而后者补充全局身份相关的线索来进一步保证生成图像的身份一致性。此外,本研究提出了一种无监督人脸软掩膜预测模块,进一步提升了模型的准确性与实用性。3.从多条件受限的图像几何语义编辑出发,本文针对人脸驱动问题展开研究,提出了一种基于人脸几何和纹理信息解耦思想设计的多人脸驱动模型,其包含一个精心设计的人脸关键点转换器分支以在几何空间上进行不同身份的面部运动迁移,以及一个几何感知生成器分支生成人脸驱动图像,在保证图像生成质量的基础上实现了多人脸驱动任务目标。同时本文将该框架扩展到了音频多人脸驱动任务,设计了音频特征融合器和几何控制器模块分别进行音频特征提取及高效注入,并提出了一个高质量的Ann VI数据集以支持高分辨率的音频人脸驱动研究。4.从运动约束下的图像序列生成出发,本文针对图像动态化问题展开研究,基于运动和纹理解耦的思想设计了端到端的动态视频生成框架,其包含光流编码器模块和双分支动态视频生成器:前者将表示视频运动的光流信息编码为归一化向量,同时可通过随机运动向量采样的推理方式实现多样化的视频生成;后者在运动向量的控制下基于单帧输入图像生成合理的目标动态视频。此外,针对当前延时视频数据集质量较差的问题,本研究提出了大规模的高分辨率QST数据集来支持该任务的持续研究。针对以上研究内容和成果,本文在多个主流数据集上进行了大量的实验评估,证明了所提方法的有效性和优越性,在基于深度学习的条件式视觉内容生成领域取得了出色的研究成果,同时提出的部分算法模型已用于商业产品中,具有较大的应用价值。
其他文献
在日本,教职课程是培养教师人才的核心载体。为了克服大学“重学术、轻师范”的培养倾向,顺应教育变革的时代要求,日本持续深化职前教师教育课程改革,并与教师资格制度改革同向而行。日本的教职课程改革历经“师范性”意识觉醒、实践科目导入、能力共识达成和课程标准升级的演变过程,取得了重要进展。伴随2017年《教职核心课程》的颁布,新一轮教职课程改革全面展开。日本通过优化学科类别,设定由“全体目标、一般目标和达
从“互联网+”视阈来看,现代化物流企业需要的是掌握物流信息技术和物流信息系统的应用型人才。而高校承担着培养人才的重任,其培养的学生将来能否与企业对接,取决于高校所授课程质量、学生掌握程度等。为此,文中作者对《物流信息系统设计》实践课程体系进行改革已近3年,现就改革实施的内容、效果进行总结,并提出实施后的相关问题和意见,以供其他课程或兄弟院校借鉴和参考。
目的:分析加味射干麻黄汤联合孟鲁司特钠对支气管哮喘患者肺功能的影响。方法:选取2019年1月至2021年6月芜湖市中医院呼吸科收治的支气管哮喘患者100例作为研究对象,按照随机数字表法分为对照组和观察组,每组50例。对照组患者给予孟鲁司特钠治疗,观察组患者采用加味射干麻黄汤联合孟鲁司特钠治疗,比较2组患者治疗前后的临床疗效、肺功能指标、白细胞介素-6(IL-6)水平、嗜酸性粒细胞(EOS)水平、症
在现实中,制造企业除了要做好生产、设计、采购、研发等工作之外,还要加强财务控制管理,从战略角度入手,确定财务管理目标,认真编制管理方案,按照计划要求落实。但是,一些制造企业领导过于强调生产,忽略财务管理,对财务预算管理内涵了解不全,没有将财务预算工作落实到位,影响最终管理效果。为了减少不必要问题发生,需要以企业发展战略为重点,对现有管理方式进行改革创新,加强相应管理体系建设,引导财务预算管理工作有
本文主要根据"网上北语"开展远程汉语教学的实践和探索,从建构主义理论出发, 探讨远程汉语教学模式的主要因素。提出远程汉语教学课程体系、数字化教学资源、学习支持服务体系、测评系统、教学网站、数字化教学管理平台、理论研究等是远程汉语教学顺利开展的必要因素和重要保证。
<正>上海音乐学院历经九十多年的积淀,聚集了一大批德高望重的学者,这些蜚声海内外的名家都被我们尊称为“先生”。现在的年轻学子们则统一称“老师”或者“教授”,鲜少叫“先生”。但是,在今天的学院理里江明惇却被大家一致称呼为“江先生”。这或许延续着某种潜在的默契。每当在校园见到他的时候,学生们都会恭敬的问候,他总是温文尔雅、细语轻声。江先生一生挚爱民间艺术的研究,他的名著《汉族民歌概论》《中国民间音乐概
期刊
经济全球化和贸易一体化为公司的发展提供了商机,使全球市场更加透明,更具竞争力。但是也使得公司在发展的过程中面临的竞争越来越激烈,组织能否适应不断变化的市场条件,是公司能否在市场竞争中取得成功的关键之一。组织结构作为公司发展的骨骼和框架,是一个公司发展成功与否的关键。本文选择LJ公司作为研究对象,LJ公司成立时间较短,从事的主要是法律方面的业务,是一家在法律行业中具有创新思维的初创公司,进行组织结构
期刊
吉安采茶戏——做为江西采茶剧种的一个分支,根植于吉安土壤,风格独特,其唱腔清丽、旋律优美、唱词淳朴,备受吉安民众的青睐。伴随社会的不断成长,市场化的潮流,现代音乐接踵而来,对经典音乐领域造成了不小的影响,吉安采茶戏受区域、方言、表现形式等因素的局限也面临着落寞的尴尬处境。笔者有志于研究其音乐形态、展现其独有魅力、传承其文化底蕴,为吉安采茶戏延续与发扬尽绵薄之力。这是笔者的选题初衷,也是笔者的责任所
北京冬奥会和冬残奥会是我国重要历史节点的重大标志性活动。人民日报社高度重视其宣传报道工作,认真贯彻落实习近平总书记对北京冬奥会、冬残奥会筹办工作的系列重要指示精神,用好全媒体指挥调度中心“总枢纽”,坚持全社“一盘棋”,充分发挥舆论上的导向作用、旗帜作用、引领作用,全方位、多角度、立体化报道冰雪盛会、讲好冬奥故事。