基于位置信息约束的细粒度图像生成方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:daolong163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨模态由文本生成图像是大数据人工智能领域的重要研究课题,其发展推动了跨视觉和语言的多模态学习和推理的研究进程,是近年来最活跃的研究领域之一,在诸多行业有着广泛应用,如艺术生成、游戏引擎和计算机辅助设计等。根据自然语言描述生成与之语义匹配的图像是一个复杂的计算机视觉和机器学习问题,近年来取得了很大的进展。然而,目前大多数由生成对抗网络辅以语义约束的图像生成网络仅提高了图像的视觉真实性和语义一致性,而忽略了对图像内容更多元的控制,如生成图像中主体物的位置、大小等。因此,本文在生成对抗网络中加入位置约束,提出了以下两种能够控制生成图像中主体物位置的图像生成网络:(1)提出一种基于位置信息的单阶段图像生成网络。以生成对抗网络为基础,将语义特征与位置特征作为约束条件输入生成器,指导生成器在生成图像中的指定位置生成符合语义描述的主体物。将由文本提取得到的语义特征与由边界框图像提取得到的位置特征连接,得到包含了语义与主体物生成位置信息的合成特征。生成器根据该特征与随机噪声生成主体物在指定位置的符合语义描述的生成图像。鉴别器中设置了语义校对模块,利用长短时记忆(LSTM)根据生成图像中表达的语义信息获取再编译文本,并根据输入文本求出对比损失,使生成图像具有更高的视觉真实性和语义一致性。在CUB数据集和COCO数据集上的大量实验结果证明基于位置信息的单阶段图像生成网络可以有效确定生成图像中主体物的位置。(2)提出一种基于位置信息的多阶段图像生成网络。将生成对抗网络与迭代的级联多阶段图像生成框架结合,生成图像分为三个像素级,由三个阶段的生成器生成,在迭代过程中逐步提高图像的视觉真实性、语义一致性及定位精度,最终生成高质量的细粒度图像。位置特征由不同像素级的边界框图像提取得到,与由文本提取得到的语义特征一起被输入进对应像素级阶段的生成器,指导网络生成主体物在指定位置的符合语义描述的细粒度图像。对网络确定主体物生成位置的功能,设计了剪影生成模块,使网络更准确地确定主体物生成位置。在图像生成各阶段引入了注意力机制,指导生成器在生成图像子区域时关注与该区域最相关的单词。通过在公开数据集上的多组实验可证明,基于位置信息的多阶段图像生成网络可以确定生成图像中主体物位置,并使图像具有良好的视觉真实感和丰富的语义细节。
其他文献
在“互联网+教育”时代,随着数据分析和信息科学的迅猛发展,在线课程在整个教育周期内得到了全面的推广和普及。学习者再也不受时间和空间的制约,可以随时随地被授予高质量教育,学习者的学习形式和受教育模式得以充分扩展。然而,在线课程中,由于学习者之间学习习惯和背景知识的差异,且师生之间缺乏沟通,导致难以实现教师的因材施教和学习者的个性化发展,进而很大程度上影响了学习者的学习效果。另外,日益庞大的学习者规模
学位
随着教育信息化的发展,学生可获取的教育资源数量逐渐增多,多维教育、在线学习等学习途径日益普及。而如今面对海量的学习资源学生群体难以迅速找到满足自身个性化需求的学习资源,因此在教育领域研究人员也开始应用基于人工智能的个性化推荐技术实现智能教育时代的“因材施教”。教育推荐系统可以充分分析学生的历史数据,获取学生的隐性学习偏好并由此向学生推荐满足其个性化需求的学习资源。就目前现有研究分析,以往的推荐方法
学位
智能化转型升级正在成为酒店业发展的新趋势。然而,很多酒店进行智能化转型升级并没有带来所预想的效果,反而面临着诸多的困境。虽然酒店在硬件设施上进行了智能化改造,但酒店的服务流程并未升级、人员服务模式并未转型、组织结构和人员配备未调整、培训内容未优化等,还是沿用了未转型时的模式。要突破智能化转型升级的困境,酒店需要在组织管理和人力资源管理等方面做出相应的调整,如要基于顾客满意的人机协同合作服务设计理念
期刊
The existence of deep learning’s "black box" makes it difficult to understand how the algorithms analyze patterns and make image-level predictions.A representation of the pixels contributing the most
学位
由于环境光线昏暗或者设备自身问题,会导致获取的图像亮度较低,不仅影响人类视觉体验,还会制约以高质量图像为输入的计算机视觉应用性能,如目标检测、人脸识别等。与一般暗光环境下低照度图像增强研究相比,实现在复杂光照环境下低照度图像增强研究,要在考虑平衡不均匀光照问题的同时,还要考虑图像清晰度、噪声干扰等问题,这是具有挑战的。本文将对目前的低照度图像增强方法进行分析,并提出相关的改进方法。本文具体研究内容
学位
在互联网和信息科技高速发展的今天,人们已经能够随时凭借各类社交网络平台和电子商务平台发布自己的观点和想法。这使得互联网中涌现出海量的文本数据,这些评论文本中大都包含着情感信息,分析文本中蕴含的情感并提取出其中有价值的信息对于企业、政府乃至社会都有着重大的研究价值。基于此,文本情感分析成为了最受学者们关注的领域之一。传统的情感分析任务是在文档或句子级别上进行的,通常只能粗糙地表达出一个整体的情感极性
学位
随着影视行业的发展与渲染技术的进步,高质量的作品也大量涌现。画面是检验一部好作品的重要依据,而这些画质背后是各种渲染技术的支撑。渲染就是通过计算机对现实世界进行模拟,再用算法把场景中的模型、材质和灯光绘制成图片或者视频。在绘制一些比较复杂的场景时,由于光线在场景中传播的递归性,一些渲染算法在绘制的过程中会有较大的时间代价或者偏差。存在于现实世界中的云、烟雾、蒸汽等半透明状的物质在图形绘制领域一般被
学位
在许多实际应用的领域中,许多过程都可以用正系统来建模。正系统意味着只要初始状态和输入是正的,则输出和状态变量总是非负的。当正系统具有一定的切换规则并且系统的动力学在不同的时间间隔内被不同的正子系统控制时,该系统被称为切换正系统。切换正系统在网络拥塞控制、信息科学、医学和神经网络等领域都发挥着极其重要的作用,因此,研究切换正系统是非常有益的。但是同样也会遇到挑战,当切换后的正系统遇到脉冲时,系统的状
学位
当前我国汽车保有量大,停车难成为急需破解的民生问题。随着大数据的产生与不断发展,建立智慧停车系统成为解决传统停车问题的有效手段。而县城是我国城镇体系的重要组成部分,县城停车问题又具有一定的独特性,文章立足于县城停车现状,针对县城停车特有问题,以温州市苍南县城新区为例,研究县城智慧停车系统建设方案,因地制宜选取技术手段并配套完善的管理制度与保障体系,缓解县城交通拥堵,提升停车位资源利用率,推进县城数
期刊
癌症亚型的识别对个性化医疗的应用具有重要意义。它致力于使用无监督聚类方法将癌症患者划分为不同的亚型,并为后续的治疗方案提供有价值的参考。近年来,随着测序技术的快速发展,其产生的丰富的多组学数据为在整体水平上发现癌症亚型带来了前所未有的机遇。然而,由于测序技术的限制,组学数据中往往包含大量的噪声。此外,尽管测序成本在不断下降,但仍然难以覆盖大量的样本,这使得目前的组学数据大都呈现出高维小样本特点,并
学位