基于主形式Wasserstein距离的生成对抗模型研究及其应用

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:fengzhongyun22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,深度生成对抗网络(GANs)已经成为人工智能领域研究热点之一,其在图像,语音,自然语言处理等基础领域都有着广泛的应用。但是生成对抗网络一直存在着训练不稳定和模式坍塌两大缺点。为了解决这两个问题,研究人员将Wasserstein距离引入到生成对抗网络中代替失效的相对熵度量,并且引入Wasserstein距离的对偶形式来近似计算分布之间的距离,从而在GANs模型架构中引入了评函数的结构,以此提出生成对抗网络的变体:Wasserstein-生成对抗网络(WGAN)。但是研究表明,优化对偶形式中的评函数结构会使得整个网络的时间复杂度变高,这使得对偶形式的优化成为一个巨大的挑战。不仅如此,对偶形式也未能优化真正的Wasserstein距离。在本文中,为了更深入的理解生成对抗网络的机制,我们简化了WGAN的基础架构,通过优化WGAN的主形式,避免了引入额外的Critic结构,并将优化后的生成对抗损失引入到图像恢复任务中。具体来说,在WGAN的主形式中,我们通过简化真实分布和生成分布之间的条件概率分布,直接近似计算Wasserstein距离,然后通过最小化分布之间的Wasserstein距离,迭代更新生成器的参数。通过简化模型架构,我们发现WGAN中一一匹配的损失会导致生成器出现严重的过拟合问题。该发现启发我们将生成对抗损失引入到真实数码变焦任务的模型框架中。本文的研究工作如下:(1)为了解决WGAN主形式下的高计算复杂度和训练不稳定性问题,我们提出了改进原始Wasserstein模型的训练方法。我们首先将Wasserstein距离形式化为线性分配问题,并通过匈牙利算法直接有效地计算经验Wasserstein距离。其次考虑到2-范数在度量高维数据中失效的特性,我们在传输成本函数中采用不同的度量方法来度量图像的差异。最后我们从理论上分析了小批量抽样是导致WGAN主形式框架训练不稳定的原因,并提出了一种简单有效的方法来缓解训练的不稳定性。具体地说,我们增大批数据的大小,同时缩小了数据集的大小,以此最小化小批量抽样引起的偏差。(2)其次,我们将WGAN损失引入到真实图像的数码变焦任务中。我们提出了一个基于自监督的残差感知网络,该网络通过明确地利用丢失信息来准确地恢复高分辨的图像。该网络的新颖之处在于:1)提出了一种自监督的残差感知辅助任务,它可以提取并提供丢失信息的高维特征表示,从而有效地学习数码变焦的任务,而不需要任何的人工标注成本。2)提出了多尺度池化和旋转的空间注意力机制,该改进的注意力机制能够有效的探索空间表征上丰富的上下文依赖关系,实现特征之间高效的聚合。3)引入了WGAN中的判别器来计算生成图像和真实图像之间的分布差异,该对抗损失可以指导生成网络输出更加真实的变焦图像。
其他文献
近年来,现实生活中的数据量急剧增长,信息过载成为当前时代的新问题。推荐系统可以快速地从海量数据中筛选出用户感兴趣的信息,在解决信息过载问题上发挥着重要的作用。然而用户和项目规模的增长产生的数据稀疏问题,导致推荐算法的精度降低,成为当前亟需解决的问题。异构信息网络描述了多种对象间的关系,可应用到许多数据挖掘任务中。知识图谱作为一种有向异构信息网络,包含了实体的描述信息和实体间在现实世界中的联系,可作
学位
数字孪生作为实现装配物理世界和虚拟世界实时交互和融合的有效手段被广泛研究和关注。本文以H企业伺服机构装配单元为应用对象,研究基于数字孪生的伺服机构装配单元管控技术,将数字孪生技术应用到伺服机构装配生产管控中,实现物理装配单元与虚拟装配单元的融合,为装配单元管控提供一种新措施。本文主要从以下几个方面来展开研究工作:(1)伺服机构装配单元数字孪生建模研究。分析伺服机构装配管控建模需求,分别从装配人员、
学位
作为计算机视觉领域基础及热点研究之一,文字检测与识别引起了大家的广泛关注与讨论。相较传统图像处理方法,基于深度学习的方法可以实现图像中文字信息的自动获取,从而进一步提高准确率,极大地节约人工及时间成本。但巨大的模型参数量以及内存消耗限制了其在小型设备如移动终端上的应用与发展,难以满足人们日益增长的需求。基于此,本文对轻量级文字检测与识别算法进行探讨并将其应用于公共数据集及不同领域的数据集之中,实现
学位
近年来,由于医疗从业人员培养周期等方面的限制,医疗效率和质量的提升变得缓慢。海量的电子健康系统(EMR)的数据中隐藏大量信息,为获取医学知识提供了新的途径。因此,如何通过挖掘EMR数据的潜在医学知识来治疗疾病成为进一步提升医疗水平的关键。本文旨在开发治疗引擎,其利用资深医生提供的治疗记录和满意治疗结果患者的电子病历提供的知识预测药物处方,从而提升医疗决策质量,避免意外医疗事故发生。然而这并非易事,
学位
期刊
特征选择是模式识别与数据挖掘的关键问题之一,它是削减假设空间大小、降低数据维度的重要方法。随着信息技术的极速发展,获取完整的有标记数据集变得更加困难,实践中常常需要处理部分标记信息缺失的数据集。半监督特征选择即是应用于上述半监督学习场景的特征选择技术,可以同时利用有标记数据和无标记数据进行特征选择。它一方面可以挖掘全体数据样本的结构、分布信息,另一方面也可以利用有标签样本数据标签提供的类别信息。不
学位
在传统机器学习研究中,学习对象仅由一个类别标记来描述其语义信息。在许多实际应用中,学习对象往往与多个类别标记相关联。多标记学习是解决该类任务的一种学习框架,并已成功地应用到了许多实际任务中。在多标记学习的实际任务中,精确标注对象的多个标记往往代价高昂且异常困难。更高效的标注方式是标注者仅粗略地赋予每个对象一个候选标记集合。该候选集包含数目未知的相关标记,并且往往掺杂着一些不相关的标记。这种方式降低
学位
在众多的室内定位技术中,基于图像的定位技术有很大的应用前景。然而基于图像的室内定位技术目前存在一些局限。首先基于图像的定位需要大量的计算和存储资源,不能部署在计算和存储资源有限的移动端。而部署在服务器端,网络延迟或不可用将导致用户无法获得位置信息或产生较大的定位延迟。其次基于图像指纹的定位方法构建和维护图像库需要消耗大量的成本。为了克服基于图像的室内定位方法中存在的限制,本论文提出了一种实时性和轻
学位
近年来,随着4G/5G蜂窝网络和智能手机的普及,各种新兴的移动视频应用(如抖音)的使用量迅速增加。根据思科的报告,全球移动数据流量在过去几年增长迅速,其中移动视频流量占了一半以上。在日益拥挤的无线网络中,流畅和高质量的视频可能无法保证,进一步可能会导致移动用户体验质量降低。因此,在有限的无线网络资源下,如何提高视频质量和用户体验是一个很大的挑战。目前,蜂窝网络正朝着小基站的异构性和密集部署的方向发
学位
随着5G网络的不断推进,无线网络物理层监测在网络运营中发挥着越来越关键的作用。同时,无线信号地图,作为一种分析网络状态的有效方式而备受关注。在构建无线信号地图时,感知区域广且需要长时间更新,传统方式费时费力,已无法满足此应用的需求。而群智感知系统在效率与成本上更具优势,成为了构建城市级无线信号地图的最佳选择。在设计群智感知系统时,通常以数据质量和感知成本作为主要依据。本文主要研究了构建无线信号地图
学位