论文部分内容阅读
数字图像修复的目的在于使用一种自动的数字图像处理技术对图像中的缺失区域进行填充,保持缺失区域与已知区域的连贯性和自然过渡,使得填充后的图像满足人类视觉要求。随着信息时代的发展,数字图像修复技术已成为计算机视觉和数字图像处理领域的前沿性研究课题,在文物保护、生物医疗、游戏娱乐等领域得到了广泛的应用。
传统基于信息扩散或基于纹理合成的图像修复方法可在细小区域或重复纹理缺失区域取得良好的效果,但当图像内缺失区域面积过大时往往生成模糊或单一的修复结果。近来发展起来的基于深度学习的图像修复方法可通过理解受损图像内容从而对缺失区域内容进行推理生成,在人脸、车辆等特定场景中可生成较准确的图像语义,但直接将这类方法推广到包含复合结构和纹理的自然图像修复场景时,仍存在许多巨大的技术挑战。具体分析如下:
(1)内容生成方面:自然场景图像由于对象类型多样、像素分布情况复杂,现有采用单次前向生成图片的方法生成的内容往往存在严重的形状失真和纹理混叠的问题,尤其发生在对象边界与纹理多变区域。然而,图像中不同对象的同质纹理区域交接处往往会形成丰富的结构信息,是一种良好的先验知识,有利于这种“一对多”的不适定问题的求解,因此如何对结构信息进行推理并利用结构先验辅助图像修复是解决形状失真的重要问题。
(2)纹理优化方面:基于深度学习的图像修复方法通常采用修复图和原始图在像素层或特征层的重建损失(L1或L2损失)作为网络模型的优化函数,而重建损失已被学术界公认会造成生成内容的纹理模糊现象,即使结合以保证图像“自然度”为优势的生成对抗损失,也难以取得比较满意的效果。然而,受损图像中的已有信息具有完好且丰富的图像纹理细节信息,如何借鉴这一重要的纹理先验知识,保持缺失区域生成内容的纹理细节与已有信息的一致性,是图像修复领域需要解决的问题。
(3)语义感知方面:现有方法采用残差网络、扩展卷积和跳跃连接等工具,结合重建损失、生成对抗损失等约束条件,能使图像整体修复质量有所提高。但自然图像中存在多个对象,而不同对象间的结构属性不尽相同,纹理细节的修复机制也各不相同,增加语义先验有助于提高复杂场景对象结构与纹理修复的准确性。而修复图像中语义对象的位置推断又依赖于修复后的图像内容。因此如何协同实现对图像中语义对象位置和图像内容及细节的推理,使这两个任务相辅相成,是图像修复领域又一需要解决的问题。
针对上述三大挑战,本文借鉴人类艺术家在修复图像首先对结构进行勾勒和恢复的思路,以图像结构为主要研究对象,逐步引入结构先验信息、纹理先验信息和对象语义先验信息,分别从结构推理与辅助修复、结构约束下的纹理迁移、语义与结构的联合优化三个层次展开研究,取得了以下创新性成果:
(1)基于显式结构推理和感知的图像修复技术
针对现有图像修复方法依赖单一高维特征无法表达复杂自然场景,易导致图像修复结果边界不准确的问题,本文提出了一种基于显式结构推理和感知的图像修复技术。通过显式提取受损图像的边缘获取图像结构信息,并在结构高层语义特征表达的基础上构建结构修复模型,生成完整边缘图像,为缺失区域的恢复提供结构先验信息来改善修复结果目标边界处的质量。相对于基于整体图像内容理解的图像修复方法,本文提出的算法可有效提升修复目标边界的准确性,且可将修复图像的平均PSNR提升1.27dB。
(2)基于隐式内容推理和风格渲染的图像修复技术
针对现有图像修复算法由于神经块单元混合了结构和纹理信息,在通过神经块单元匹配的纹理优化过程中易导致图像内容被误改的问题,本文提出了一种基于隐式内容推理和风格渲染的图像修复技术。通过将图像的结构和纹理特征分别映射到内容隐空间和风格隐空间实现两者的分离,并在阐明缺失区域结构推理与纹理填充机理具有本质差异的基础上,构建隐空间的内容推理方法和基于已知区域纹理先验的风格渲染方法,从而从根本上解决了内容推理与纹理优化之间的矛盾。本文提出的算法与基于纹理优化的图像修复算法相比,可将修复图像的平均PSNR提升0.38dB。
(3)基于对象感知和多任务递归学习的图像修复技术
针对现有基于生成的图像修复模型在多目标修复的复杂场景中对各语义对象的表达能力不足而导致生成无效语义图像内容的问题,本文提出了基于对象感知和多任务递归学习的图像修复技术。通过引入图像中对象语义先验信息为缺失区域的结构修复和纹理填充提供指导,在分析语义对象分割与图像内容修复之间相互依赖关系的基础上,构建图像语义分割与图像修复的多任务递归学习框架,从而实现基于语义先验信息的图像修复质量提升。本文所提算法相比于现有基于纹理优化的图像修复方法可提升0.57dB。
综上所述,本文通过分析结构在人工图像修复过程中的重要性,从图像结构的表达与推理入手,分别在显式结构的提取与推理、隐式结构的表达与推理、基于语义约束的结构推理三个层次上逐步引入结构先验、纹理先验和语义对象先验信息,提出了基于显示结构推理和感知的图像修复方法、基于隐式内容推理和风格渲染的图像修复方法和基于对象感知和多任务递归学习的图像修复方法,大幅提升了复杂自然场景的图像修复质量,为图像修复技术从特定场景向通用场景的应用奠定基础。
传统基于信息扩散或基于纹理合成的图像修复方法可在细小区域或重复纹理缺失区域取得良好的效果,但当图像内缺失区域面积过大时往往生成模糊或单一的修复结果。近来发展起来的基于深度学习的图像修复方法可通过理解受损图像内容从而对缺失区域内容进行推理生成,在人脸、车辆等特定场景中可生成较准确的图像语义,但直接将这类方法推广到包含复合结构和纹理的自然图像修复场景时,仍存在许多巨大的技术挑战。具体分析如下:
(1)内容生成方面:自然场景图像由于对象类型多样、像素分布情况复杂,现有采用单次前向生成图片的方法生成的内容往往存在严重的形状失真和纹理混叠的问题,尤其发生在对象边界与纹理多变区域。然而,图像中不同对象的同质纹理区域交接处往往会形成丰富的结构信息,是一种良好的先验知识,有利于这种“一对多”的不适定问题的求解,因此如何对结构信息进行推理并利用结构先验辅助图像修复是解决形状失真的重要问题。
(2)纹理优化方面:基于深度学习的图像修复方法通常采用修复图和原始图在像素层或特征层的重建损失(L1或L2损失)作为网络模型的优化函数,而重建损失已被学术界公认会造成生成内容的纹理模糊现象,即使结合以保证图像“自然度”为优势的生成对抗损失,也难以取得比较满意的效果。然而,受损图像中的已有信息具有完好且丰富的图像纹理细节信息,如何借鉴这一重要的纹理先验知识,保持缺失区域生成内容的纹理细节与已有信息的一致性,是图像修复领域需要解决的问题。
(3)语义感知方面:现有方法采用残差网络、扩展卷积和跳跃连接等工具,结合重建损失、生成对抗损失等约束条件,能使图像整体修复质量有所提高。但自然图像中存在多个对象,而不同对象间的结构属性不尽相同,纹理细节的修复机制也各不相同,增加语义先验有助于提高复杂场景对象结构与纹理修复的准确性。而修复图像中语义对象的位置推断又依赖于修复后的图像内容。因此如何协同实现对图像中语义对象位置和图像内容及细节的推理,使这两个任务相辅相成,是图像修复领域又一需要解决的问题。
针对上述三大挑战,本文借鉴人类艺术家在修复图像首先对结构进行勾勒和恢复的思路,以图像结构为主要研究对象,逐步引入结构先验信息、纹理先验信息和对象语义先验信息,分别从结构推理与辅助修复、结构约束下的纹理迁移、语义与结构的联合优化三个层次展开研究,取得了以下创新性成果:
(1)基于显式结构推理和感知的图像修复技术
针对现有图像修复方法依赖单一高维特征无法表达复杂自然场景,易导致图像修复结果边界不准确的问题,本文提出了一种基于显式结构推理和感知的图像修复技术。通过显式提取受损图像的边缘获取图像结构信息,并在结构高层语义特征表达的基础上构建结构修复模型,生成完整边缘图像,为缺失区域的恢复提供结构先验信息来改善修复结果目标边界处的质量。相对于基于整体图像内容理解的图像修复方法,本文提出的算法可有效提升修复目标边界的准确性,且可将修复图像的平均PSNR提升1.27dB。
(2)基于隐式内容推理和风格渲染的图像修复技术
针对现有图像修复算法由于神经块单元混合了结构和纹理信息,在通过神经块单元匹配的纹理优化过程中易导致图像内容被误改的问题,本文提出了一种基于隐式内容推理和风格渲染的图像修复技术。通过将图像的结构和纹理特征分别映射到内容隐空间和风格隐空间实现两者的分离,并在阐明缺失区域结构推理与纹理填充机理具有本质差异的基础上,构建隐空间的内容推理方法和基于已知区域纹理先验的风格渲染方法,从而从根本上解决了内容推理与纹理优化之间的矛盾。本文提出的算法与基于纹理优化的图像修复算法相比,可将修复图像的平均PSNR提升0.38dB。
(3)基于对象感知和多任务递归学习的图像修复技术
针对现有基于生成的图像修复模型在多目标修复的复杂场景中对各语义对象的表达能力不足而导致生成无效语义图像内容的问题,本文提出了基于对象感知和多任务递归学习的图像修复技术。通过引入图像中对象语义先验信息为缺失区域的结构修复和纹理填充提供指导,在分析语义对象分割与图像内容修复之间相互依赖关系的基础上,构建图像语义分割与图像修复的多任务递归学习框架,从而实现基于语义先验信息的图像修复质量提升。本文所提算法相比于现有基于纹理优化的图像修复方法可提升0.57dB。
综上所述,本文通过分析结构在人工图像修复过程中的重要性,从图像结构的表达与推理入手,分别在显式结构的提取与推理、隐式结构的表达与推理、基于语义约束的结构推理三个层次上逐步引入结构先验、纹理先验和语义对象先验信息,提出了基于显示结构推理和感知的图像修复方法、基于隐式内容推理和风格渲染的图像修复方法和基于对象感知和多任务递归学习的图像修复方法,大幅提升了复杂自然场景的图像修复质量,为图像修复技术从特定场景向通用场景的应用奠定基础。