基于自监督异构学生网络的异常分割算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hznmtz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展和深度学习技术的完善,构建深度学习模型自动分割图像中异常模式,成为了计算机视觉领域的研究热点之一。该项任务具有重要的研究价值和广泛的应用前景,例如其可被应用于质检领域,发现产品上存在的瑕疵。然而,该项任务还存在着巨大挑战,如异常样本难以获取,异常区域视觉可分辨性低,异常模式具有未知性等,因此通常要求模型能在基于正常图像学习的情况下,对待检图像中的潜在异常进行分割。基于上述任务设置,近年来基于教师-学生框架的方法取得了显著进展,本文对该类方法存在的问题展开研究,本文主要研究内容及创新点归纳如下:(1)现有方法对异常区域的分割精度不高。本文揭示了影响分割性能的关键因素,即模型对异常边缘附近像素预测的不确定性(Uncertainty Around Boundary,UAB)。UAB导致异常区域边缘附近的像素容易被误检和漏检,这种现象大幅降低了异常分割的准确性。(2)为提升异常分割模型精度,本文提出了一种新颖的异构学生网络。该网络由三个不同结构的特征提取模型(称为学生网络)构成,用于提取图像不同层次特征,本文对异构学生网络进行针对性设计,旨在缓解UAB问题。异构学生网络受到大型预训练特征提取模型(称为教师网络)的监督,推理阶段根据其能否准确回归教师网络的输出特征进行异常分割,低层特征提取模型有助于抑制高层模型的UAB现象。(3)在异构学生网络的基础上,本文进一步提出了自监督异构学生网络。该网络由基于教师网络的监督和基于合成数据的自监督同时约束,自监督学习的方式有助于帮助网络进一步挖掘异常区域的边缘特征,提升网络对异常边缘的敏感度,从而进一步抑制UAB。相比其他异常分割算法,本文提出的算法在异常分割数据集上达到了国际领先水平。特别的,在MVTec数据集上,本算法实现了49.2%的平均异常分割性能,相比目前最先进的两种算法Patch Core和STAD,本算法实现了7.3%和9.0%的显著增长。
其他文献
随着我国经济的高速发展和科技水平的提高,异常检测技术在工业质检、视频监控等领域扮演着越来越重要的角色。目前,随着计算机视觉技术的发展,异常检测技术也在不断取得突破。然而,现有算法仍存在许多问题亟待解决,如计算量较大,难以满足实时性需求;模型需要大量的样本及时间进行训练,难以满足实际场景需求。本文充分调研了异常检测、高效学习等领域的相关研究,对异常检测任务中存在的问题进行了探究,主要工作内容及创新点
学位
计算机视觉领域,图像语义分割是热点研究问题之一,其研究成果被广泛应用于自动驾驶、智慧医疗等场景。在一系列算法中,基于深度学习的语义分割算法是目前的主流。在算法实际部署的过程中,业界对轻量级语义分割网络的需求愈发迫切,针对计算资源受限场景下的语义分割主干网络设计是其中的一个研究方向。主干网络在深度学习算法中扮演着重要角色,主要用于提取输入图像的信息,为下游任务提供多尺度特征。Transformer网
学位
近年来深度学习方法在医学图像分割领域取得了显著成效。然而,深度学习分割模型的性能高度依赖于训练样本的标签质量。医学图像的像素级标注依赖于专家的经验,十分耗时且容易出错,导致训练样本不可避免存在大量标签噪声,严重影响分割模型的性能。如何消除标签噪声对分割任务的干扰仍面临挑战,是目前的研究热点方向。医学图像分割场景中的标签噪声主要包含两类:1)由标注者的疲劳或粗心导致的随机标签噪声;2)由于目标结构复
学位
在新一轮科技革命和产业变革的背景下,快速发展的计算机技术与传统汽车行业深度融合,智能汽车成为产业发展的战略方向。作为智能驾驶关键技术中的数据前端,车辆感知系统利用多种传感器收集数据,并以此为基础进行算法分析,提取有价值的外部环境信息,供车内乘员及辅助驾驶系统做出驾驶行为决策。本文主要研究设计和实现一个车辆多模态视觉感知系统,选用可见光与红外摄像头作为视觉传感器,以此为基础实现像素级和语义级的外部环
学位
人体实例分割旨在对图像中的每一个人体都给出像素级的识别结果,是计算机视觉领域的一个重要研究问题,在手机等移动终端上具有良好的应用价值。本文基于业内主流的Yolact方法设计了一种能在移动终端实时运行且具有较高精度的人体实例分割算法,命名为Yolact Mobile,算法主要做了两个方面的改进:(1)针对多尺度人体特征难以准确表达的问题,本文在主流的人体实例分割模型Yolact框架基础上提出了更优的
学位
基于视觉与雷达融合的即时定位与重建技术(Simultaneous Localization and Mapping,SLAM),是室外场景位姿估计和建图的主要技术手段之一。它融合了相机和雷达两方面的优势,一方面利用相机获得较高的输出频率,另一方面利用激光雷达直接获取大范围的场景结构信息。然而,现有融合方法的视觉模块(即深度增强视觉里程计)大多采用特征点法。但是,基于图像信息提取的2D特征点和激光雷
学位
二维虚拟试衣技术利用服装与人体图像合成虚拟试衣图像的方式来模拟服装的试穿效果。当前主流技术手段利用人体的体型姿势信息对服装图像进行扭曲变换,弥补服装与人体间的空间错位,然后再将扭曲服装与人体图像进行融合得到合成图像。然而,空间错位是无法完全消除的,人体与扭曲服装之间的未对齐区域会在融合过程中混入无关纹理,从而在合成图像的服装区域造成模糊和伪影。因此,如何解决上述问题是二维虚拟试衣领域面临的重要挑战
学位
在教育信息化高速发展的背景下,许多学者在教育数据挖掘领域开展研究,而其中最热门的研究是成绩预测。成绩预测基于学生的成绩数据、行为数据、或其它个人数据预测学生未来表现。早期的成绩预测主要依靠学生的成绩数据,随着大数据时代的到来,可用于成绩预测的数据得到了极大地扩展。然而,目前成绩预测研究仍存在着采用的数据类型比较单一,数据规模普遍较小的问题。针对这些问题,本文开展了基于较大规模多源数据的成绩预测研究
学位
近年来,包含电脑生成的图形、文本和动画的屏幕内容(Screen Content,SC)越来越受到人们的欢迎,如屏幕共享类型视频。其中,屏幕内容编码在屏幕共享方面发挥着极其重要的作用。然而,屏幕内容编码仅仅沿用了普通编码器的帧内预测框架,屏幕内容的帧内预测编码仍存在提升空间。因此,本文分别针对屏幕内容的帧内划分树结构和帧内预测模式对帧内的编码算法进行优化。一方面,针对帧内预测的双树划分结构进行优化。
学位
在嵌入式摄像头系统中实现基于机器视觉的目标检测算法,是安防领域走向智能化的重要一步。传统的深度学习算法设计与实际部署至目标平台是相对独立的两个环节,由于设计平台与实际部署平台之间存在的硬件架构差异,许多GPU平台上设计得到的算法无法充分利用目标平台的硬件计算能力,该问题已经成为许多研究人员关注的焦点。针对目前嵌入式摄像头部署的智能算法无法充分利用硬件计算资源,算法精度与实时性无法兼顾的问题,本文研
学位