面向卷积神经网络的知识蒸馏算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：sam4567

【摘要】

：

【作者】

：

陈德鹏

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,卷积神经网络在各种计算机视觉任务中取得了显著的成功。然而卷积神经网络的成功伴随着大量的计算和资源消耗,难以部署到资源受限的实际应用中。模型压缩为解决此类问题提供了有效的方案。知识蒸馏通过教师模型（大模型）指导学生模型（小模型）训练的方式,使得小模型尽可能达到大模型的效果,用小模型来代替大模型,来实现模型压缩的目的。知识蒸馏不受网络结构差异的影响,在模型压缩领域得到了广泛的研究。因此,本论文从不同方面对知识蒸馏算法进行了研究。首先,本论文研究了基于中间特征的知识蒸馏算法,该方法通过使用教师网络的中间特征来指导学生网络的学习。鉴于目前大多数基于中间特征的知识蒸馏算法在利用中间特征进行知识转移时,损失了部分特征信息,导致特征信息利用不充分,影响学生的学习效果。本论文提出了基于通道和空间特征的知识蒸馏算法,该算法通过通道转移模块和空间转移模块来转移教师模型中间特征的通道信息和空间信息。这样两个模块互相补充,能够充分地利用教师模型的中间特征信息。另外,对通道转移模块和空间转移模块的特征提取位置进行了探究,研究表明网络的高层次转移通道信息、其他层次转移空间信息的效果更好。实验结果表明本论文提出的算法优于主流的知识蒸馏算法,在CIFAR100数据集上学生模型WRN-16-2的分类准确率达到了75.38%,与教师模型WRN-40-2的性能（75.61%）十分接近,验证了所提出算法的有效性。接下来,本论文对师生模型容量差距过大导致学生学习效果差的问题进行了分析。其中,基于教师助理的知识蒸馏算法是一种有效的解决方案,但我们发现该算法存在错误叠加问题,即在教师助理的学习过程中,较高层次的教师助理在学习时出现错误,这种错误会一直传递下去,最终影响了学生模型的性能。为此,本论文提出了基于教师助理的多重引导知识蒸馏算法。具体来说,在学生的学习过程中,不仅接受较小的教师助理的指导,而且接受较大的教师助理以及教师的直接指导,使得错误可能被纠正,缓解了错误叠加问题,使得学生的学习效果得到有效提高。另外,为了提高学生的学习效率并避免过拟合问题,提出了随机学习策略,使得学生可以学到不同的知识组合,提高了学生的学习效果和学习效率。在CIFAR10和CIFAR100数据集上使用Resnet和Wide Res Net两种不同架构的学生模型的性能优于主流的知识蒸馏算法,证明了本论文提出算法的有效性。本论文对现有的知识蒸馏算法进行了探究,能够有效地提高学生模型的性能,可应用于资源有限的图像分类、实例分割等实际场景。

其他文献

基于多尺度深度表征学习的高分辨率遥感影像变化检测

变化检测作为遥感影像处理领域的基础性任务,旨在分析、比较同一地区不同时间的遥感影像,并检测出其中所发生的的变化。随着近年来一大批类型多样的高分辨率遥感影像的不断涌现,变化检测任务的挑战显著增加。首先,随着影像分辨率的提升,影像所包含的场景更加复杂,干扰信息也更多,这对于变化检测任务的特征提取环节提出了极高的要求;其次,对于高分辨率遥感影像,像素级的类别标注费时费力,如何减少网络训练过程中对于标记样

学位

基于流数据聚类的KPI时间序列异常检测算法研究

异常检测问题是数据挖掘领域的重要研究方向之一,其中关键性能指标（KPI）异常检测也是其中的重要问题之一。随着基于网络的软件系统的发展,企业和运营商越来越重视对网络流量和用户浏览时间等关键性能指标的分析。与传统的时间序列异常检测相比,KPI时间序列异常检测具有数据量大、标签少等特征、概念漂移等问题,导致传统的异常检测模型在处理KPI数据时面临巨大挑战。受概念漂移的影响,时间序列数据的分布会随时间发生

学位

基于反向影响采样的社交网络影响力最大化算法研究

随着互联网的发展与网络设备的普及,用户之间互动的数据越来越丰富,使用社交网络建模社交关系也变得越来越重要。近年来,社交网络在市场营销中发挥着重要作用。例如“病毒式营销”,利用少数人对信息的传播,达到最大的影响范围。而社交网络中影响力的分析又分为几个方面:选取少数节点最大化最终的影响力,即影响力最大化问题;将节点赋予不同的激活成本,在预算内选取节点使得种子集影响力最大,即预算影响力最大化问题;确定大

学位

基于不确定性学习的人体姿态估计方法

人体姿态估计是计算机视觉领域中的一项重要任务,它在人们的日常生活中有着极其广泛的应用,同时,它也是行为识别、人机交互和增强现实等领域的基础。优秀的姿态估计算法能准确地从图像中获得关节点信息,给人们带来更好的使用体验。因此,研究更先进的人体姿态估计算法具有十分重要的意义。近些年,随着人工智能的快速发展,深度神经网络在计算机视觉领域中取得了巨大进展,并成为了人体姿态估计任务的重要方法。然而,现有基于深

学位

图像模糊估计与去模糊方法研究

图像是如今信息传输不可或缺的载体,在许多实际应用场景下都有着重要的作用。但是在图像拍摄的过程中,极易由于相机离焦或与场景发生相对运动导致图像模糊。模糊图像携带的信息难以获取,给人们的生产生活带来了不便。因此,图像去模糊技术,即从模糊图像中恢复出高质量的清晰图像,具有广泛的研究和应用价值。同时,图像去模糊作为一个经典不适定问题,也是数字图像处理领域的一个极具有挑战性的重要研究方向。图像去模糊通常分为

学位

基于量子进化的神经网络架构搜索方法研究

随着神经网络相关研究的发展,在深度学习领域中深度神经网络（Deep Neural Networks,DNN）模型已经在图像分类等问题中展现出了强大的性能优势。与此同时,另一项改变传统计算范式的新兴领域——量子计算也发展迅速。在量子计算领域中由于量子系统所具有的并行特性优势,量子计算与神经网络结合而产生的量子神经网络（Quantum Neural Networks,QNN）也成为越来越多研究者进行深

学位

基于自监督学习和多尺度特征融合的弱监督语义分割

图像语义分割是计算机视觉领域的基础任务之一,也是实现场景理解和物体识别的前提,其研究进展对于医学影像分析、自动驾驶、安防监控等行业的发展具有重要意义。目前,受到最多关注的全监督分割方法需要像素级标签的支持,而该类标签的获取严重依赖人工标注,耗时耗力,限制了语义分割在实际场景中的应用。针对上述问题,弱监督语义分割方法被提出,其使用少量人工标注的弱标签监督分类网络训练,生成的像素级结果作为伪标签监督分

学位

基于深度神经网络的遥感图像缺陷检测

随着遥感技术的发展,可见光遥感已经成为了一种重要的信息获取手段,通过该技术获取的遥感图像及其衍生品已经大量应用于国防建设和国民生产领域中。由于太空环境的特殊性,在成像过程中卫星硬件设备的老化和在传输过程中外部因素的干扰导致遥感图像出现不同的缺陷。遥感卫星每天都会产生海量数据,其中含有缺陷的数据需要在生产前标记和剔除。然而通过人工标记筛选耗时且效率低,因此需要一种自动化检测算法对可见光遥感图像进行缺

学位

基于上下文感知注意力的低光照去雾网络及部署

雾霾的存在使拍摄环境变得恶劣,导致成像后的图像出现细节丢失、对比度下降和颜色失真等问题,不仅影响人的主观感受,更严重制约了后续高级视觉应用（如目标检测）的性能。现有图像去雾算法大多数仅针对正常光照下的含雾场景,而未考虑低光照下含雾场景的特点,即:光照强度低,雾对成像质量的影响被进一步放大;场景中通常存在多个光源,不同光源的光经过雾的散射使得图像色偏更加严重;光源附近存在明显的辉光效应。本文针对低光

学位

基于混合式经典—量子模型的分类器设计和仿真实现

随着大数据和深度学习网络的不断发展,人工智能算法的运算复杂度和所需求的计算量也随之大幅度增加,机器学习的性能开始受到了限制。另一方面,量子计算在近些年得到了飞速发展,并逐渐展现其独特的优越性和巨大计算潜力。自然的,量子计算与人工智能技术的交叉融合而成的量子机器学习成为当前重要的前沿研究领域,得到了广泛的关注。和经典机器学习一样,量子机器学习领域的一个核心应用就是进行分类器的设计。目前,该方向的主要

学位

面向卷积神经网络的知识蒸馏算法研究

与本文相关的学术论文