知识图谱指导的场景图像生成

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ktaxx01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为计算机视觉领域的研究热点,图像生成任务具有巨大的理论研究价值与实际应用潜力,其中,场景图像生成由于需要同时考虑多个物体以及物体间复杂的交互关系,更具挑战性。然而,当前大多数方法均从复杂的文本描述、场景图、场景布局中生成场景图像,往往需要用户或是详细阐述物体属性及关系,或是构造专业性较强的结构场景图,或是固定物体间的布局关系,因而用户友好性不足。为了给用户提供便捷化的场景图像生成方式,本文基于知识图谱,设计了直接从物体标签生成场景图像的Label2im模型,旨在利用源自图谱的知识信息提升场景图像生成质量。本文围绕场景图像生成过程的各项挑战展开研究,融合知识图谱设计了场景图选择、场景图表示、布局预测、图像生成等模块,实现了“标签—场景图—布局—图像”的生成。针对知识图谱在图像生成任务中的应用进行了有效探索。具体而言:1)针对由于缺乏物体间关系信息导致的场景布局不合理等挑战,本文设计了场景图选择模块,促使模型在知识图谱中自动搜索关系并构建多样化场景图,补充常识性关系信息;2)针对标签域与图像域间存在难以学习的跨域鸿沟等挑战,本文设计了场景图表示模块,融合知识图谱的知识表示,为跨域映射学习充分的特征,加深模型对物体及关系的充分理解;3)针对如何保证生成场景图像与输入内容间的语义一致性等挑战,本文设计了三元组注意力模块,在利用级联细化网络进行图像生成的过程中,加入源自知识图谱的三元组知识特征的指导,提升生成模型对于语义信息的关注。本文设计了对比实验、消融实验与附加实验。对比实验从定量评估与定性评估两个角度验证了本文方法的优异性能;消融实验利用模块的消融设置及实验分析证明了所提出模块的有效作用;附加实验探索了本文方法在不同应用情景下的更多细节与不足之处,从而充分展示、分析并验证了本文方法能够基于给定标签生成高质量的场景图像。
其他文献
证券市场的安稳对我国经济发展、社会稳定极为重要。因此,在证券违法行为频发的今天,需要借助有针对性的法律对投资者进行倾斜性保护,维护证券市场的稳定。长期以来,我国法律的重心在于对违法行为的打击,忽视了对投资者利益的保护。投资者维权条件苛刻,程序繁杂,时间漫长,即使投资者投入大量时间、精力,也难以获得足额赔偿。因此,需要完善法律中投资者保护条款,构建法律制度,为投资者维权提供更为便捷、高效的途径。“万
学位
雾是一种较为常见的现象,通常情况下,由于能见度有限等外界环境的干扰,户外拍摄的图像会出现对比度低、图像模糊、颜色失真等图像质量下降的情况。如果把这些原始的退化图像作为输入,对后续高级计算机视觉任务,例如目标检测、人脸识别等,会产生较大的影响。图像去雾的目的是从输入的有雾图像中得到保留细节、色彩丰富的干净图像,图像去雾作为图像处理的重要环节受到了较多研究者的关注。当前的去雾算法研究中,基于图像增强的
学位
胰十二指肠切除术是治疗壶腹肿瘤及壶腹周围肿瘤的标准术式。近年微创技术在胰腺外科的应用发展迅速,国内外学者通过不断改良手术策略,以降低术后并发症发生率、提高R0切除率与患者预后。较传统术式,腹腔镜胰十二指肠切除术由于具有更短的住院时间、更低的术中大出血风险等优点逐渐被胰腺外科医师所接受,但其操作较困难,学习曲线长,若不能实现R0切除会大大降低手术本身带来的益处,选择合理的手术入路、手术策略对实现R0
期刊
人体姿态估计,作为计算机视觉领域的重要发展课题,近年来受到广泛的关注。单张图像的多人人体姿态估计方法,致力于在检测出图像中所有人的实例的同时,定位每一个人的所有人体关键点的具体位置。其作为理解图像或视频中的人的行为的基础,为动作识别、行人重识别、行人追踪、三维人体姿态估计、三维人体重建等后续任务的实现提供了重要的辅助。过去的多人人体姿态估计的方法,大多是基于两阶段的,具体地,可大致分为自顶向下和自
学位
点云的法向是各种点云处理任务中的基本特征,随着深度神经网络的兴起,最近已经有相当多的利用深度学习方法的点云法向估计方法被提出,相比于传统方法,这些基于深度神经网络的方法无论从速度上还是精度上都取得了巨大的成功。然而,大多数基于深度的方法都采用从输入数据提取出的特征直接回归法向量这一思路,这对于存在异常值的数据来说,往往表现得很差,对训练数据十分敏感。同时,这使理解黑盒模型中点云法向量估计机制变得十
学位
三维人体重建是计算机视觉领域的重要问题,该问题关注的是如何在静态三维扫描数据的基础上,重建一个具有参数化表示人体网格模型,从而可以进行姿势驱动。三维人体重建在游戏、电影、虚拟现实和增强现实等领域具有十分广泛的应用,因此具有重要的意义。本文首先简单地介绍了三维人体重建问题的背景和相关工作,包括常见的三维数据结构、常见的参数化人体模型以及基于不同思路(优化或者回归)和不同表示(参数化模型或者隐式函数)
学位
最优传输理论研究可分度量空间中概率测度之间的最优传输变换。给定两个概率分布和对应的传输代价函数,最优传输问题求解使得总传输成本最小的传输方案。近年来,随着最优传输理论和算法的不断发展,最优传输理论在深度学习、图像处理、经济学和医学等领域都发挥出巨大的作用。因此,研究计算最优传输问题的高效算法,有助于最优传输理论更好地应用于各个领域。本文首先对求解最优传输问题的三种不同算法进行了介绍和实验,它们分别
学位
深度学习是机器学习的一个分支,通过分层学习获取数据的内在规律和表示层次。目前深度学习被广泛应用在计算机视觉、自然语言处理、语音识别、量子化学以及医学等领域,尤其在图像识别中表现出了出色的性能,这离不开大规模、高质量的数据集以及GPU性能的提升。在传统的图像识别任务中,训练数据的类分布往往受到人工的影响,即不同类别的样本数量基本一致。然而真实应用场景中的数据集通常表现出长尾分布,这给图像识别任务带来
学位
本文以对比分析理论、第二语言习得理论作为指导,采取学科内两种语言交叉研究的方式,对国际中文敬语教学进行系统地梳理总结。通过对比分析以及问卷调查的方式,分析以韩语为母语的学生学习汉语敬语时所存在的主要问题及原因,并结合调查结果及具体教学实践经验提出相关教学建议,以期能在一定程度上为对韩汉语敬语教学提供一些参考。全文主要分为五个部分。第一部分是绪论,主要对文章的研究内容、研究方法、研究综述等进行了概述
学位
《六十种曲》作为“现存明代汇刻传奇最丰富而重要之总集”(傅惜华语),兼有文人案头本与舞台演出本的双重性质,具有很高的研究价值。道具是戏曲创作和戏曲演出中的重要组成部分,对戏曲研究具有重要意义。故对《六十种曲》道具进行研究是可行并具有价值的,既能为《六十种曲》研究增添新的内容,又能将戏曲的文本研究与舞台研究紧密联系起来,还有助于当代剧作家借鉴前人的道具设计进行戏曲创作。本文以“《六十种曲》的道具研究
学位