基于GAN网络的行人图像修复

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:xingchen1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着计算机视觉和深度学习在学术界的快速发展与研究,使得深度学习方法在图像修复、特征提取、图像翻译、图像生成等领域的优势日益突出。深度学习越来越成为研究者们的研究方向。深度学习的方法已经表明极富挑战性的修复任务取得了可喜的成果,这些方法可以生成看起来合理的图像结构和纹理。自2014年Ian Goodfellow等人提出了GAN(Generative Adversarial Network)以来,生成对抗网络(GAN)目前已然成为图像修复、图像翻译、图像生成等领域的一个研究热点。本文关注行人图像的补绘问题。如今,监控摄像头被广泛部署在城市的每一个角落。因此,每一秒都可以获得大量的行人图像。如何自动分析和理解其背后的内容就成为一个迫切的研究课题,具有明显的理论和应用价值。显然,源图像的质量将严重影响后续的理解阶段。因此,本文将讨论如何恢复被破坏的行人图像。由于监控摄像机大多分布在室外,采集到的图像不可避免地会出现一些色调上的失真。我们认为,如果处理不当,色调失真可能会降低修复效果。因此,本文提出了一种综合的网络结构,可以恢复受损的行人图像,同时纠正色调失真。为了实现稳健恢复,本文采用了生成对抗的网络框架。现有的GAN方法非常普遍,许多GAN都使用多个判别器。但是,它们的多个鉴别器全部用于实现全局和局部图像的一致性,它们的目的和用法是一致的。在这一点上,本文的方法是不同的,整体生成器完成了图像的翻译,全局鉴别器用于校正色调。对于修复部分,我们考虑添加一个额外的鉴别器来细化修复效果。这样,我们针对两个完全不同的功能构造了两个生成对抗性损失,从而实现了色调校正和图像修复的有效结合。我们的方法强调通过GAN网络将图像修复与色调校正融合在一起。
其他文献
随着现代制造业的高速发展,人们对于数控机床加工精度的要求也越来越高,电主轴作为数控机床的核心部件,其固-热耦合特性的好坏影响了机床加工精度的高低。本文以传热学、热弹性力学、摩擦力学等理论为基础,分析了电主轴单元的固-热耦合机理,并在固-热耦合特性的基础上提出了电主轴冷却系统的改进方案。得到成果如下:基于Jones轴承模型,建立了综合考虑热效应和离心力效应的角接触球轴承载荷-位移模型,对轴承的固-热
如今,目标识别算法在计算机视觉研究的领域中依然是热门的方向,但目标识别算法的应用面临着巨大的挑战。现有的目标识别算法大多数是在高功耗、高性能的GPU平台上应用,才能达到高识别速度的要求。而针对一些功耗和资源受限的特定场景,尤其是要求强实时性的场景。部署目标识别算法就变得非常困难。为了解决这一问题,一部分研究者通过优化目标识别算法,减少目标识别算法的参数量和降低目标识别算法的计算量,这一类的算法被称
建筑行业在我国经济发展中占据重要地位,它创造了大量的GDP,同时也提供了大量的就业岗位。然而传统的建设工程领域中存在诸多问题。如因为设计不足导致的变更频繁,生产效率较低,资源浪费较为严重等问题突出。因此在我国的建设工程项目中,有75%以上的项目超支严重,70%以上的项目进度超期。针对上述问题,本课题提出了针对BIM技术的项目管理,将BIM技术引入到EPC项目的成本管理中,有针对性的解决EPC项目设
随着人工智能,深度学习越来越多的引人注目,图文匹配就是其中的一项任务。图文匹配任务是指给定一个图像和众多文本内容,要求机器在对图像理解的基础上对图像和文本进行匹配,选出和图片最接近的一段文字。图文匹配涉及语义理解、图像检测与识别、知识推理等相关技术,要求机器以人类的方式来理解图像,这也是人们对人工智能的期望。因此对提升机器人等人工智能系统的智能程度具有十分重要的作用。通常来说,图文匹配任务需要同时
随着互联网的发展,越来越多的人喜欢在探索新兴趣点(POI)的同时,使用签到(Check-ins)的方式将其分享给基于位置的社交网络(LBSN)上的其他用户。通过分析用户的签到数据,基于LBSN的推荐算法可以挖掘出用户的潜在行为模式,为用户推荐其可能会感兴趣的兴趣点。但是由于LBSN中包含的兴趣点遍布世界各个角落,从如此多的兴趣点中准确找到用户可能会喜欢的兴趣点是非常困难的。并且面对庞大的数据量,计
在种植牙领域,植牙前方案规划具有十分重要的意义,它直接影响着种植手术的结果。基于CBCT数据与三维牙模扫描数据的自动模拟种植牙系统提供一种缺失牙参数计算方法,可以大大提升植牙规划效率,提高手术成功率;还提供一种半自动的种植参数可视化方法,加强了系统的灵活度和可操作性。针对目前植牙规划效率较低的问题,本文提出了一种基于CBCT数据与三维牙模数据的缺失牙参数计算方法,首先对CBCT数据进行基本的三维重
深度学习已在计算机视觉和自然语言处理两大领域都获得了巨大的成功。视觉问答(Visual Question Answering,VQA)作为横跨计算机视觉和自然语言处理两大领域的引用,是指给出一个语句问题和一个对应的图片,需要智能系统能够理解图片,在此基础上对问题做出回答。随着数据量的爆发式增长,作为视觉问答其中的一个应用,如何根据问题,在一个图集中找到对应的图片,根据图片再给出回答是一个亟需解决的
在虚拟教学中,授课教师的地位举足轻重,而虚拟教师授课主要通过直观的面部表情传递信息,因此面部合成的实效性至关重要。但传统的面部表情合成方法,存在因驱动复杂拓扑结构模型出现的局部失真、细微表情欠缺现象,因计算量较大带来的延迟现象等。为此本文基于面部高质量建模和面部表情实时驱动两部分关键技术进行了深入研究,有效提升了合成面部的真实性和实时性。在三维面部建模方面,本文在传统纹理映射的基础上针对拼接重合点
对于当下的学生来说,数据挖掘是一个经久不衰的技术领域,而对于从事数据挖掘的工作者来说更是深刻的体会到了数据挖掘技术强有力的发展前景。本文主要分为两个部分,第一部分主要分析影响学生成绩的因素有哪些,找出对学生成绩影响最为显著的因素。鉴于研究中所用到的数据集维度众多,因此采用一种建立多维数据集的方法完成数据库的建立,其中多维数据信息库里的内容包括学生姓名、学号、身份证号、准考证号、各科目的考试成绩、生
Inconel 625高温合金性能优异,被广泛应用于航空航天、工业化工等领域,为了进一步提高其耐磨性能,提出采用激光熔化沉积方法制备碳化钨与石墨烯增强Inconel 625复合材料思路,制备出Inconel 625/WC-12Co复合涂层和Inconel625/石墨烯复合涂层,采用场发射扫描电子显微镜(FESEM)、X射线衍射仪(XRD)、拉曼光谱仪、显微维氏硬度计和摩擦磨损机等对其开展测试,主要