【摘 要】
:
基于生成对抗网络(Generative Adversarial Network,GAN)的潜在空间语义表达算法研究是当前隐式图像表示的研究热点之一,在数字内容生成方面有着广泛的应用。针对目前图像在潜在空间的逆向映射的准确性不够,使得重构图像和输入图像存在明显特征差异的问题,通过优化潜码的编码器结构、生成器的嵌入优化、以及损失函数的选择等方法,实现了对真实图像的在潜在空间的准确逆映射和基于潜在空间的
论文部分内容阅读
基于生成对抗网络(Generative Adversarial Network,GAN)的潜在空间语义表达算法研究是当前隐式图像表示的研究热点之一,在数字内容生成方面有着广泛的应用。针对目前图像在潜在空间的逆向映射的准确性不够,使得重构图像和输入图像存在明显特征差异的问题,通过优化潜码的编码器结构、生成器的嵌入优化、以及损失函数的选择等方法,实现了对真实图像的在潜在空间的准确逆映射和基于潜在空间的语义编辑。具体开展并完成了以下研究工作:(1)针对真实图像到StyleGAN潜在空间逆映后语义表达不准确问题,提出了一种基于样式的编码网络,将真实图像映射到StyleGAN的扩展潜在空间W+,实现对真实图像的准确逆映射和语义表达。编码器网络以U-Net为框架,利用生成的三种尺度大小的特征向量构造出w+潜在向量,联合逐像素损失、感知损失和个人身份损失联合训练。实验结果表明,算法通过基于样式的编码网络直接组合w+潜在向量,能够实现图像到W+潜在空间的准确逆映射,支持通过改变潜码进行语义编辑。(2)为了进一步提高真实图像逆映射在潜在空间语义表达准确性,提出了一种基于潜在空间嵌入扩展的两阶段逆向映射方法:第一阶段有监督的训练一个域内引导编码器,引入像素损失和感知损失。像素损失用来使编码后的潜码在像素域进行对齐,感知损失用来引导逆向映射编码后的潜码在语义域内进行对齐;第二阶段将域内引导编码器的输出作为初始潜码进行嵌入优化,来微调编码器产生的潜码,对StyleGAN的潜在空间进行了扩展,实现对真实图像高准确逆映射,提高进行语义编辑后的重构图像质量。(3)开展了真实图像的语义操纵的工程应用设计,开发了基于PyQt5框架的语义操纵辅助演示工具。该工具可跨平台运行,支持Windows、Linux或macOS等操作系统,其主要功能有两项:实时完成并呈现输入真实图像的逆映射后的重构结果;对重构的图像进行实时的语义操纵。此外,此工具还开放了添加自定义算法的接口,以满足后续算法扩展和升级。
其他文献
近年来,同步定位和建图(Simultaneous Localization and Mapping,SLAM)在自动驾驶、飞行器等智能领域中扮演着重要角色,它用于解决在未知环境下的自身定位、地图构建等问题。视觉SLAM和激光雷达SLAM技术得到越来越多学者的关注,但在单目视觉SLAM中仍存在着定位和建图的一些问题,以及在激光雷达SLAM中存在实时定位的问题。本文针对以下问题开展研究:1)在视觉SL
与普通的面部表情不同,微表情是一种自发且无意识的面部运动,它无法被刻意抑制和隐藏,能够展现人内心的真实情感。现有公开微表情数据库的样本量很少,这会导致深度学习方法应用在微表情识别任务时容易出现过拟合问题,此外由于微表情具有持续时间短、脸部肌肉变化幅度小的特性,现有的微表情识别方法很难有效地提取到微表情的鉴别性特征,从而导致识别准确率不高。针对上述问题,本文研究了用于微表情识别的鉴别性特征学习方法,
随着生活水平的提高,高血压等疾病年轻化,人们锻炼身体的意识不断提高,但是过度运动可能会造成肌肉筋膜劳损、心肌损伤等疾病。当前疲劳检测的疲劳等级量化方法较简单,把疲劳分为疲劳和不疲劳两个状态,或者根据《感知劳累评分量表》划分疲劳等级,这两个方法受主观影响和个人因素影响较大。在当前疲劳检测方法中特征选择和疲劳识别模型参数优化分开进行,无法做到疲劳识别准确率全局最优。本文使用最大耗氧量的百分比进行疲劳等
第五代无线通信系统在当下社会中发挥着重要作用,它极大的影响了工业生产、生活和娱乐等各个方面。而毫米波通信技术作为其中的一项关键技术,虽然有着众多优点,但是由于毫米波的传播特性所带来的问题也是不容忽视的。为应对毫米波通信易受障碍物阻挡、穿透力弱的问题,可以用当下较为热门的智能反射面(IRS)技术来解决。IRS是由大量低成本的无源反射元件组成,每一个反射元件都可以通过控制其幅度和相位来独立地反射信号,
现代社会的科技进步必然要求通信技术的不断发展和迭代,带来巨量的数据传输和海量的数据流量交互,通信系统的发展要能够满足技术发展的需求。例如,对相对于第四代移动通信系统来说,目前已经运营的5G通信所具有的优势,不仅仅在于系统频谱效率数量级上的提升,而且能满足大量的用户接入和低时延的性能要求,同时5G相对于4G通信系统的用户链接密度也必须是数量级上的差别。稀疏码多址接入(Sparse code mult
理解图像中人-物的语义是人工智能领域的难点,主要任务运用深度学习、强化学习等算法整合序列化的图像特征信息来确定人、物在图像的区域。近年来传统机器学习语义分割技术的发展已能基本满足定位图像中人群,但基于深度学习的语义分割还有待研究。本学位论文以识别图像中各个语义为研究目标,首先设计一种基于注意力机制的语义特征提取方法抽取图像主要内容的多维融合特征,再设计一种边缘信息增强算法减少网络训练时边界信息的丢
全球20%的能源消耗源自建筑能耗,而暖通空调系统产生的能耗占据建筑能耗的50%。由于无法实时准确感知室内人员热感,过冷或过热供给带来大量的能源浪费。基于视觉感知的非接触式人体热不舒适检测,是缓解该问题的方法之一,近年来已成为国内外研究热点。由于个性差异性,现有视觉检测方法的精确度亟待提高。本文从人体姿态检测的角度,对人体热不舒适展开研究,主要工作如下:(1)构建人体热不舒适姿态数据集(PORT:P
网络编码技术可显著提高网络的数据吞吐量,受到了众多学者的广泛重视。但当前网络编码技术将所有数据包看作相等的重要性,并没有考虑数据包的重要性差异,而在一些实际的通信环境中,不同的数据包重要性并不一致,如车联网中安全信息数据包相对于娱乐信息数据包具有更高的重要性等级,视频流中分为基础层和增强层为不同信道传输条件的用户发送不同的数据层。因此,本论文将基于数据包的重要性差异对网络编码技术展开研究,主要工作
随着5G的快速发展和移动设备的激增,传统的移动云计算(Mobile Cloud Computing,MCC)已经无法满足计算密集型任务低时延服务要求,同时移动设备受限于计算能力、电池量而无法带给用户满意的体验感。为了解决上述问题,移动边缘计算(Mobile Edge Computing,MEC)通过将高性能服务器部署在移动用户的附近,将强大的云计算能力转移到网络边缘,用户可就近卸载任务,从而能显著
随着通信技术的不断发展,人机交互,万物互联成为新时代的主题,如何在有限的频谱资源中提供低延迟,低功耗,高频带利用率的技术手段,成为通信研究人员不懈的追求。终端直连技术(Device-to-Device,D2D)运用在蜂窝网中,可以有效降低基站侧流量负载,提高网络容量和频谱利用率;同时,非正交多址(Non-orthogonal Multiple Access,NOMA)在提高频谱利用率的同时,还可以