基于深度学习的低质量鞋印图像重建、生成和属性预测

来源 :吉林大学 | 被引量 : 0次 | 上传用户:youxiing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像质量通常以成像系统对图片的获取,执行计算操作,压缩以及扩展为所需形式和跨平台传输的精度来衡量。换言之,图像质量是人类在感知和视觉系统的作用下对图像所包含信息详略程度以及带给人愉悦感受的相关程度的评价。图像质量有时也与图像的保真度有关,而保真度则进一步与真实图像的源分布相关联。衡量给定图像质量的指标有多种,其中图像-质量-评估(IQU)是常用的度量标准。此外,还有多种其他质量测量指标,包括PSNR、SSIM、MAE、MASE等。质量评估指标还可以按主观(定性)或客观(定量)度量来分类。其中每一种分类都要根据问题的实质加以应用。然而,这两种方法都不足以完全评估图片质量,这就要求不仅要引入度量标准来衡量图片质量,还要考虑图片自身内容所呈现出的自然性。在本文中,低质量鞋印图像不仅限于那些质量差、分辨率低的图像,还包括缺乏自然性特征的鞋印图像。这些图片缺失自然特征的现象在某些情景下又是无法避免的。为了比较图片的客观效果,本文采用了基于客观指标的评估方法。另一方面,为了评估视觉效果的自然度,本文还采用了基于主观指标的评估方法。低质量鞋印图片经常出现在收集和提取比较困难的场景下。现实生活中的鞋印通常都是带有上述低质量图片特征的印记。低质量图像的处理对所有方法都存在一个不适定问题,例如传统算法、自动化方法、机器学习以及最近基于深度学习的方法等。本文基于机器学习和深度学习方法来解决低质量鞋印图像处理。本文收集了大量的鞋印图像并生成了各种数据集版本,以便为最新的技术(即机器学习、深度学习等)提供数据集。此外,本文还提出了多个基于深度学习的从不同角度来处理鞋印图像的模型。这些模型包括从鞋印中预测生物性状及其相互关系的模型方法,同时本文还使用最新的机器学习策略对低质量鞋印图片进行重建与修复,并且巧妙地解决了在没有高分辨率对照组的情况下生成高分辨率和高保真鞋印图像的问题。深度学习技术往往需要以大量信息作为支撑,来用于训练和评估模型。为此,本文从50,000名年龄从7岁到80岁之间的个体中收集了总共100,000张鞋印图像。从每个参与实验的参与者那里收集了一对鞋印图像(左脚和右脚)。这是第一个包含年龄、性别、体重、身高等注释信息的大规模鞋印数据集,其中每个鞋印都带有沿自然方向的不规则标尺。为了支持多种深度学习模型在生物特征估计方面的能力,本文创建了不同版本的数据集,即Dataset-A到Dataset-F。Dataset-A中的所有图像都是未经精炼的、无组织的原始图片。在DatasetB中,图片中的劣质图像都被手动移除,每个图像中测量形态特征的标尺都被删除,保留了有关法医研究所需的鞋印细节。在某些情况下,标尺可能无法与鞋印图像完全对齐,从而导致深度学习模型的训练过程出现分歧。为了剔除低质量图像,本文设置了如下标准:1)该领域的专家也无法对其进行有效评估的鞋印。2)超过75%的鞋印区域是磨损和缺失的。因此,本文将质量评价阈值设定为75%,即如果一幅图片有75%或更多与背景像素相似的负像素,则认为其是低质量的,需要从训练样本中剔除。Dataset-C仅由左脚鞋印图像组成;Dataset-D只包含右脚鞋印图像。Dataset-E中包含成对的鞋印,左侧是左脚鞋印图像,右侧是右脚鞋印图像。Dataset-F是专门为进行年龄预测和性别分类的研究而设计的数据集。左右鞋印图像都被组合为成对的鞋印作为个体表示。Dataset-F包含了在男女分类训练模型以及年龄预测方面按性别排序的鞋印。最后,Dataset-E内是样本数量平衡的鞋印,因为不同的年龄组的样本数量并不平衡。鉴于多种因素的影响,例如图像质量差、不完整的鞋印、噪声干扰、缺少和有刮痕的边界以及不完整的图案和纹理等,鞋印图像处理是一个具有挑战性的任务。鉴于上述低质量因素,利用手工方法、传统算法和先进的机器学习模型对处理这类图像仍然是一个不适定的问题。为了应对挑战,进行鞋印处理,以便与生物特征相关联以及重建、恢复、增强和生成高质量的图像,本文采用机器学习方法进行了一系列实验。这也是本文的一项创新性研究,旨在明确鞋印图像与生物特征之间的关联。为了研究生物特性与鞋底压力之间的关系,本文以年龄和性别特征作为研究对象。鞋印与年龄和性别的关联在日常生活应用中有着至关重要的作用。要研究这种关系和其联系,需要与人的步态结合进行分析。人类的步态在研究中有重要作用,因为随着年龄的增长,站立和行走模式会发生变化。人类的步态(行走和站立)是人体上下肢体运动的重复行为,包括社会、文化和行为特征在内的不同环境因素与步态模式以及站立和行走时观察到的变化密切相关。同样,人体发生的生理变化,如年龄和健康状况,也与步态模式的变化趋势有关。这些变化可以反映在人体生理中的步态速度、站姿宽度、步速、步幅和双足力量上。这些参数又反映在鞋印中,并可以用来估计年龄,这是迄今为止第一个系统论述步态、鞋印和年龄之间的关联关系。为了进行实验,本文收集了大量与现实环境(例如法医场景)相匹配的鞋印样本,构建了新的数据集。利用该数据集,本文提出了基于深度学习的ShoeNet模型,并提供了一个统一的网络平台,以端到端的方式来执行年龄预测。ShoeNet分析了压力分布与年龄的关系,还进行了年龄预测和性别分类(即男性和女性)。该模型将卷积神经网络模型与跳跃机制相结合,从鞋印中提取与年龄相关的特征并传递到网络深层,以处理分布在鞋印上的压力分布和磨损区域。ShoeNet将ResidualNet的跳跃连接结构和Dense Net模型的密集连接结构结合起来,跳跃层融合了从浅层网络中学习到的特征,使得它们能够在保持各对鞋印反应的站立和步态姿势的同时,克服浅层堆叠网络的退化和梯度信息丢失的问题。ShoeNet以成对的鞋印为基础,抽取出给定自然方向的左右脚鞋印的特征。ShoeNet从统一的成对表示中提取特征图,以反映人类行走特征中所特有的磨损效果。跳跃机制允许它重新参数化来自下一个卷积层堆叠的特征。ShoeNet可以通过参数共享从跳跃模块传递的鞋印中学到与年龄相关的信息,为了处理数据中的异常值,ShoeNet以面向目标的方式专门根据特定场景调整了目标函数。为了推断从成对鞋印中提取的不对称特征在训练ShoeNet模型中的作用,本文需要注意其与人类生物学特征(比如年龄、性别等)之间的关联。鉴于此,本文分析了人类年龄、行走和站立姿势与鞋印之间的关系。就行走时双足与地面接触的情况、站立姿势、步速和行走时间以及弯腰姿势的变化而言,都与衰老显著相关。步态速度、步长、姿势和步态的变宽都源于人体的衰老。与年轻人相比,老年人在正常步行中的步幅往往要宽41%。类似的,当肌肉随着年龄增长而松弛时,这种变化的影响反应在鞋印的压力分布。儿童在走路时肌肉收缩的能量消耗更明显,而且会随着年龄的增长而逐渐减慢,这种变化可以在健康参与者实验过程中留下的鞋印痕迹中看到。但是通过研究和观察鞋底与地面的接触区域,不同生理特征的人的不同穿着所呈现的磨损效应可能与人的年龄和性别有关。因此,本文的研究将行走和站立模式、年龄变化和鞋印之间的关联系统的联系了起来。鞋印承载并反映了行走和站立时的压力分布。在年龄预测过程中,研究不同步行和站立模式下出现的变化具有重要意义。为了分析这种压力的趋势,本文首先从捕获的原始图像中分割出鞋印,对分割后的鞋印图像进行叠加处理。具体来说,叠加是将一幅图像叠加到另一幅图像上以描绘渐增影响的过程。在叠加阶段,需要仔细分析每个图像的轮廓,以获取与所需鞋印的边界框计算相对应的轮廓。每个轮廓线和轮廓线的边界框适当裁剪,以有效地计算图像维度空间中的左上角和右下角坐标。为防止图像受损,出现不完整的边以及掺杂其他区域,我们要仔细的从整个图像中分割出鞋印。此外,排除了边缘切割和多余区域的掺杂,以确保来自给定图像的鞋印的完整性。由于鞋印图像中的尺寸变化(即高度、宽度等),分割部分的边界框尺寸会波动。此外,为了避免莫尔纹样的产生,我们将所有的鞋印图像按照矩形框的坐标进行裁剪,并通过间三次插值将其调整为相同的纵横比。为了在成对鞋印中呈现出自然方向,所有左右分割的鞋印图像都会进行相应的翻转。对于每个年龄组,所有分割的图像都对齐并按照x和y坐标系统放置在类似的坐标中。本文将图像的像素值转换为特定的像素范围(即,范围为-32,768到+32,767的integer-16数据类型),以保持正负像素值的结果。这样的转换将有助于确定不同年龄组的压力变化。叠加可以保留代表正负值范围内分布的压力点减去像素的绝对值。我们从不同年龄组中选择样本,以确保对齐和分割正确的实施。鞋印图像叠加的主要目的是观察鞋印图像在同一环境和尺寸下对应不同年龄范围的各部分的压力及其波动。为了显示压力方面的变化,我们在不同的方向做这类减法。压力变化的趋势反映了年轻人和老年人的不同。本文研究了年龄变化与受试者鞋印之间的关联,该关联已被用于基于深度学习技术预测年龄方面的工作。这项研究工作的目的之一是利用机器学习从获取的数字化鞋印中估计年龄和进行性别分类。通过年龄与性别的预测以及其他结果将极大地有益于案件调查,因为这将缩小嫌疑人排查范围。此外,对嫌疑人外底(鞋印)每个部分的压力评估,可以确认嫌疑人的年龄范围和性别。在年龄预测和性别分类之后,需要进一步的证据、识别嫌疑人的特征(年龄、性别、种族、民族等)。在法医调查和检查中,我们的模型使得年龄与性别这种生物学特征的获得变得容易和具体,并将极大的缩小嫌疑人范围。除了轮廓估计和压力分布分析外,鞋印重构在法医学调查和检验中也起着至关重要的作用。由于图案、纹理、尺寸、磨损和姿势的可变性不一致,鞋印重构是一个难以解决的问题。由于领域内专业算法的不足、证据不足、信息内容贫乏以及缺乏ground truth,鞋印重构是一个有挑战的问题。在典型情况下,鞋印图像的背景比较模糊,这使得识别有意义的图案更具挑战性。可以通过重构嫌疑人的鞋印来确定嫌疑人的身份。早些时候,手工的方法被用来将鞋印重构成更清晰、更完整的形状。采用端到端机器学习方法的图像重建研究数量有限,并且没有取得令人满意的结果。此外,传统上鞋印检验和分析依赖于人类的专业知识,而大多数最先进的(SOTA)模型由于受到不同的约束而无法取得较好的结果。现有模型通常采用通用的方法来提取特征,并且缺乏解决现实问题所需的专业知识。此外,在法医调查等现实场景中,目前没有理想的鞋印数据集来设计基于深度学习的网络模型来重构鞋印。为了解决上述问题,本文提出了一个深度学习模型,该模型不仅重构了原始纹理和图案,还可以重构原始鞋印中缺失的区域和边界。据我们所知,本文提出的模型ShoeRec(shoeprint-reconstruction)是第一个满足上述需求的鞋印重构方面的模型。ShoeRec创新地结合了深度学习模型的有效特征,并在采集的鞋印中鲁棒地重构了缺失的信息。ShoeRec主要采用了变分自编码器(VAE)和类似U-Net的架构。在ShoeRec中加入VAE有利于缺失区域和边界的重构。同样,跳跃连接的使用使得ShoeRec模型能够保持关键的图案和纹理,并与生成的区域相结合以重构出完整的鞋印。VAE特性嵌入到瓶颈层中,以便更容易地用重构数据重构所需的鞋印。该模型将上下文信息从编码器输入到解码器作为U-Net,而VAE由于潜在空间的压缩特性,改善了重构整个鞋印的概率分布。重建操作会根据目标函数自动调整,减少原始鞋印和投影鞋印之间的结构连接,并重构所需鞋印中缺失的信息。本文提出的ShoeRec模型是一个基于深度学习的创新尝试,其特点是通过注入方法和目标来重构鞋印。出于训练和测试的目的,本文引入了一个基于静态掩码的训练集,以此应对缺乏完美或理想鞋印的挑战。基于ShoeRec的重构的鞋印在结构和图案上与原图几乎完全相同,在人工评价上超越了现有的生成模型。我们同时使用主观、客观和基于排名的度量方法来衡量重构图像与理想图像的匹配(接近)质量。对重构的鞋印的评价,由于缺少ground truth我们更倾向于以人的直觉作为标准。在鞋印重构的过程中,本文集中丢失的边界、图案、线条等信息,以重构完整的图像。但是,为了完成重构过程,需要针对某些特定的特点,还有时候需要重点关注特定区域来执行重建过程。从技术上讲,本文是通过使用故意遮盖的区域来完成给定鞋印的修复。在大多数情况下,在现实环境中获取的鞋印是不清晰的、磨损的、缺乏上下文和其他类型的缺失信息。需要通过应用智能算法来解决上述缺失信息的恢复问题。为此,本文又提出了一种称为重构-修复的创新的深度学习方法DeepShoePaint来重构输入的不完整鞋印中的轮廓和缺失的区域。为了训练、测试和比较本文所提出的模型和其他模型,本文引入了有目的掩蔽的数据集。数据集中原始收集的鞋印图像是不完美的,在外观方面与实际情况下观察到的图像相当。例如,采集的数据集包括磨损、刮擦、噪声、碎片和不完整的鞋印图像,这些图像与在真实犯罪现场观察到的脚印非常相似。DeepShoePaint在没有ground truth的情况下对真实世界的鞋印进行训练,生成的鞋印信息需要由专业分析师验证。本文基于相关的掩码策略,提出了两种策略,即动态和静态的掩码策略,以此来评估模型的表现。这类数据集解决了只有在理想环境中才能找到的完美鞋印图像的不可获得性问题。为此,本文介绍了基于静态掩码和动态掩码的鞋印图像数据集。现有的修复方法试图用经过合理调整的像素来替换任意遮挡或掩蔽的区域,但它们可能无法重构被遮挡区域上鞋印图像中缺失的信息。当没有完美的鞋印的情况下(即在理想环境中采集的图像)来训练深度学习模型时,重构原始鞋印(例如,在法医等现场环境中发现)中的缺失信息将变得非常困难。本文提出的DeepShoePaint是一种独特的深度学习策略,通过恢复法医检查所需要的鞋印相似的合成信息来进行鞋印修复。DeepShoePaint将从VAE中提取的概率分布集成到一个独特的类U-Net结构中,提供一个统一的架构,用无监督的方式进行训练,以修复被遮挡和被掩蔽的区域,并提供可人为验证的鞋印信息。将VAE作为U-Net的一个组件纳入DeepShoePaint。并利用潜在空间中的概率分布为遮挡区域生成合理的像素。DeepShoePaint使用直接连接以受控方式对潜在空间可能的输出进行采样。DeepShoePaint由有意遮挡的鞋印数据来进行训练,以学习如何以清晰一致的样式、图案来重构鞋印。由此,DeepShoePaint的学习能力得到了扩展,以重构现实世界鞋印图像中缺失的信息。此外,DeepShoePaint模型训练具有独特的目标函数,旨在全面监控重建误差、正则化概率分布和感知损失,以便针对掩蔽补丁生成语义和上下文拟合的细节。感知损失项有助于调整与遮挡区域重构有关的模型参数。DeepShoePaint在人工检查和统计评估方面都优于标准重构模型。本文提出的模型不仅在含有噪声、模糊和磨损的输入方面优于SOTA,而且在人工评价和统计分析方面也优于当前最新的模型。我们相信,本文的研究不限于修复,可以为重新生成理想的鞋印提供有益的见解,以便使法医调查、检查过程自动化和简易化,而不是向以前仅仅依靠手工恢复的方法。本文分别使用视觉检测和统计分析的方法独立地将我们模型重建的鞋印与当前最新模型重建的鞋印进行比较评估,DeepShoePaint得到的结构均优于其他SOTA方法。鞋印携带着法医现场追踪证据的重要信息,现场侦查人员必须对其进行评估、调查和检查,以寻求最终的结论。实际情况中发现的大多数鞋印质量较差,形状扭曲。因此,高保真鞋印的创建在法医学中极其重要。对于图像超分,目前学术界已经提出了许多基于深度学习的方法,包括一些通用技术和特定应用的模型。为了从低分辨率的部分生成具有更高质量的高分辨率鞋印图像,本文提出一种深度学习模型。本文提出了一个基于深度学习的GUV-Net模型,用于生成高分辨率(高保真)鞋印图像,同时考虑到了问题处理缺乏专门算法的问题。GUV-Net从目前最负盛名的深度学习模型包括GAN、VAE和U-Net吸取了其最佳的模型设计。本文根据需要从上述模型中选择特征提取方法以解决缺少对应的ground truth鞋印图像问题。GUV-Net将低级特征编码并压缩为高级特征,以有效概率表示潜在空间,并通过选择不同的样本以及skipped sailent特征进行解码。然后,GUV-Net将样本从潜在空间中选择出来并沿着解码操作发送到细化阶段,从而产生高质量的鞋印。在几个阶段中,细化阶段(单元)在解码阶段接收不同级别的特征。此外,通过部署模型的关键特征,包括与解码器并行的高维空间的逆编码,细化过程变得更加高效和鲁棒。该模型能够根据给定的损失函数有效地调整网络参数,并在保持关键的法医取证所需质量的同时,使低质量或低分辨率图像可靠地转换为高保真或高分辨率图像。GUV-Net和SOTA模型均根据低质量的可用鞋印进行结果评估,其中GUV-Net优于其他用于比较模型。此外,通过改进模型保留鞋印到自然信息,模型可以变得更为有效。通常,在存在自然高分辨率图像的情况下,单图像超分辨率(SISR)通常用于在给定相应LR版本的情况下重建高分辨率(HR)图像。在法医环境中,SISR制作高质量的照片在检查和评估收集到的鞋印方面起着关键作用。在LR-HR配对缺失的情况下,利用SR生成的鞋印处理至关重要。当对应的LR图像没有可得到的真实环境中的高分辨率图像作为ground truth时,这项任务变得更具挑战性。如前所述,GUV-Net能从低质量的图片增强图片质量到高纬度空间。为了强调生成的鞋印中的自然特征而非仅是一个不错的结果,本研究还提出了GUV-Net的改进版本IPAS-Net。IPAS-Net采用U-Net(PU-Net)进行特征提取,将从LR空间学习到的参数共享到HR空间,并采用特殊的处理方法提升、细化和改进HR空间。IPAS-Net使用PU-Net模块在低层LR重构过程中提取特征,然后将学习到的特征输入到HR空间。为了对重建的LR图像进行放大、细化(UR-block)和增强,IPAS-Net集成了attention mechanism block(AMB)和one step high iteration(OSHI)单元。AMB和OSHI在保持自然信息的定性结果方面并行不悖。同样,AMB和OSHI都配备了相应的升级方案来弥补彼此的局限性。本文使用无参考或盲标准来对模型输出的高分辨率鞋印与当前最新的深度学习模型得到的结果进行比较与评估。IPAS-Net非常倾向于保留法医取证所需的自然特征。
其他文献
变应性鼻炎(allergic rhinitis,AR)是指特应性个体鼻黏膜暴露于变应原后发生的主要由免疫球蛋白E(immunoglobulin E,Ig E)介导的的非感染性慢性炎性反应。AR主要表现为打喷嚏、鼻痒、鼻塞和流清水样涕等症状。流行病学调查表明,在过去的几十年中AR的发病率逐渐增加,目前影响全世界人口的10%~40%。AR不仅影响生活质量,也可造成巨大的社会经济负担,已经成为全球性健康
学位
背景及目的孢子丝菌病(Sporotrichosis)是申克孢子丝菌及其卢里变种引起的皮肤、皮下组织、黏膜及淋巴系统的感染性疾病,偶可播散至全身引起多系统的损害。近年来孢子丝菌病发病率逐年上升,目前常用的治疗方法主要有抗真菌药物、光动力、温热疗法、冷冻和外科手术等,但效果不尽人意。随着对孢子丝菌病发病机制研究的不断深入,人们发现NOD样受体热蛋白结构域相关蛋白 3(NOD-like receptor
学位
报纸
目的:1.建立局部视网膜内铁离子过载的动物模型。探究视网膜内铁离子过载导致的视网膜退行性改变。2.探究视网膜内铁离子过载导致年龄相关性黄斑变性(Age-related macular degeneration,AMD)的发生机制。3.探究氘代二十二碳六烯酸(Deuterated-docosahexaenoic acid,D-DHA)对铁离子导致AMD改变的保护作用。4.探究膜铁转运蛋白和铜蓝蛋白对
学位
生物医学文献是生物医学领域获取知识的主要来源,这些丰富的知识在推动着健康、治疗理念、预防保健以及医疗管理等方面有着重要意义。呈指数级速度增长的医学文献因所涉及的内容巨大,已远远超出人类以传统方式获取知识的能力。从海量的电子文献中准确地获取有价值的、关键的医学知识,成为研究热点。本文针对信息抽取中语义信息丢失、外部资源利用不充分以及样本信息利用率不高等问题,以生物医学文本信息表示、语义知识利用及深度
学位
核糖核酸(Ribo Nucleic Acid,RNA)是生物体中重要的生物大分子,可以通过催化、翻译、基因调控等多种方式参与生命活动和复杂疾病的发生发展。研究表明RNA二级结构影响RNA与其他分子的交互和功能的发挥,同时相同家族的非编码RNA(non-coding RNA,ncRNA)具有相似的功能,因此预测RNA二级结构相关内容以及识别ncRNA家族可以促进RNA功能的研究。在RNA二级结构相关
学位
医学的数字化发展带来了大量的生物医学数据,对这些数据的建模有助于研究人员诊断和治疗疾病,理解疾病的发病原理。生物医学数据主要分为生物组学数据和医学数据两种类型。生物医学数据具有复杂性,数据存在大量的冗余特征和噪声,很多特征可以被其他数据所代替,并且特征之间高度相关。对生物医学数据的精准建模及预测结果,关系到医学决策。生物医学数据挖掘的关键是设计出高性能模型。机器学习是生物医学领域建模分析的重要方法
学位
随着数据规模的增长和计算能力的提高,机器学习技术已被成功应用于许多领域。传统的机器学习方法需要大量有标签的训练数据,且要求训练数据和测试数据满足独立同分布假设。然而,实际环境复杂多变,传统机器学习方法的应用条件很难被满足,这极大地限制了机器学习技术在现实场景中的应用。领域适配放宽了传统机器学习中训练数据和测试数据之间的独立同分布约束,因而能够从相关领域(源领域)中挖掘知识,并利用得到的知识解决当前
学位
研究背景:山茄子(Brachybotrys paridiformis Maxim.ex Oliv.),属于紫草科附地菜族山茄子属植物,广泛分布于我国东北地区,繁殖能力旺盛,对生长环境要求较低。研究表明山茄子中氨基酸和微量元素含量丰富,具有一定的抗炎活性和丰富的抗氧化成分,无论在食品、保健食品,还是药品研发方面均具有很好的研究价值和开发潜力。本课题主要对山茄子中的化学成分及其抗乙肝病毒活性进行研究。
学位
从矿产普查、详查、细测到油气田开发的各阶段环节,地震勘探技术作为应用地球物理技术之一,发挥了极其重要的作用。但是,随着油气资源勘探向更深层、非常规领域的推进,野外采集的地震勘探记录往往呈现出弱有效信息、强噪声干扰以及复杂噪声波场的特征,使油气工业中要求的高信噪比、高分辨率、高保真度难以实现或达不到要求。因此,有效分离地震资料中的信号与噪声是地震勘探领域的关键技术之一。深度学习(Deep learn
学位