面向正交特征的知识蒸馏算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jiabhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
得益于深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)的发展,大量计算机视觉任务取得了传统算法难以达到的表现。但是,由于大量冗余特征的存在,这些基于DCNN的优秀模型会消耗大量有效的存储和计算资源,通常难以部署在资源受限的平台。如果我们能够用一组正交的特征来表示所有特征,则可以用一个轻量级小网络来代替复杂卷积神经网络,且不带来任何精度损失。因此,在卷积神经网络中获取一组正交特征具有重要的学术价值和应用价值。本文希望借助知识蒸馏这一优化工具来去除冗余特征,从而为卷积神经网络中正交特征的获取提供一种新思路。所谓冗余特征,是指将这部分特征去掉后,模型表现不会有明显下降。但是,目前一些模型优化算法在去除部分特征后,会带来模型性能的下降,并未很好地去除冗余特征。知识蒸馏算法希望借助复杂网络的先验知识,缩小特征去除前后的性能差距,让轻量级神经网络获得和复杂神经网络相当的表现,从而更好地实现冗余特征的剔除。本文主要从判别性特征和泛化性分类器两个角度出发,研究能进一步缩小两类网络性能差距的知识蒸馏算法。特征提取和分类是传统模式识别算法的两个基本步骤,深度卷积神经网络将两者耦合成一个端到端的学习过程。但是,这两大要素仍然十分重要,会直接影响模型的表现。特征的判别性是指在特征空间中,同类特征距离较近,异类特征距离较远,这样的特征分布便于分类;分类器的泛化性是指它适应新样本的能力,泛化性低的分类器过度拟合训练集,在测试集上表现不佳。如何获得具有判别性的特征和泛化性的分类器一直是学术界的追求。因此,本文从判别性特征和泛化性分类器两个角度出发,借助复杂神经网络强大的先验知识,提升经过特征剔除后的网络的分类性能,更有效地实现特征去冗余,提高特征集合的正交性。本文的主要工作包括:1)提出基于判别性特征和泛化性分类器的知识蒸馏算法考虑到特征学习和分类决策各自的特点,本文采取不同策略训练了两类教师网络。其中一类给分类器决策提供泛化性的先验信息,指导分类器输出更平滑的概率分布;另一类为特征提取提供具有判别性的中间特征表示先验,轻量级学生网络通过对该信息的模仿来提高自身的特征提取能力。本文采用不同网络结构,在不同数据集上对所提算法进行了实验,验证了该方法的有效性。2)将上述算法拓展到无训练样本的情形大部分知识蒸馏算法假设训练数据是可获得的,但是并不是所有应用场景都能满足这一假设。本文针对无法获得训练数据的情况,只使用训练好的复杂神经网络模型,获得一个与其性能相当的轻量级神经网络。具体而言,本文将上述基于判别性特征和泛化性分类器的知识蒸馏算法集成到当前零训练样本知识蒸馏方法中,使轻量级网络的分类性能更加接近复杂神经网络,证明了本文方法在无训练样本的情况下也能有较好的表现。3)实现了基于本文算法的多人脸属性分析系统多人脸属性分析系统通常需要完成多个任务,输出多个人脸属性,对内存和计算资源的消耗较大。因此,冗余特征的去除对多人脸属性分析系统具有重要意义。在上述工作基础上,本文实现了一个多人脸属性分析系统。通过去除冗余特征,该系统能够以较小的内存和计算代价获得和复杂模型相当的表现。
其他文献
近年来,随着机器学习在分类、检测、推荐等多个领域取得显著成就,机器学习方法已经被广泛地应用于实际工业任务中,并取得了非常好的效果,创造了大量社会价值。然而,在真实场景中应用机器学习算法仍面临着非常多的问题。首先,目前的机器学习算法往往受到海量数据的驱动,但是随着整个社会对个人隐私保护意识的加强,对数据的收集、存储以及应用正受到越来越多的限制,这就为机器学习长久的发展与应用增加了阻碍。针对目前机器学
随着互联网及通信技术的发展,视频数据的产生越来越快捷,应用越来越普及。利用计算机辅助人们分析视频具有广泛的应用前景。行为识别作为视频分析课题中的一个重要子领域,相关研究工作具有很高的价值。神经网络技术的发展如火如荼,基于深度学习的行为识别算法已经成为该领域的主流研究方向。大部分主流数据集及网络结构都十分依赖视频数据中的空间信息,并不适用于细粒度的行为识别任务。细微差异动作识别有很多应用场景,如体操
随着线上零售的天花板效应显现,线下零售重新得到关注。线下零售以服务取得先天优势,而服务通过销售人员传递给顾客,因此提升销售人员的能力是目前企业管理实践的诉求。销售人员通过多年的经验积累,形成了独有的知识和技能,用以处理与顾客、同事与主管的关系,这些知识与技能构成了销售人员能力的核心。知识共享可以帮助销售人员共同掌握销售的知识与技能,有助于提升个人、团队乃至组织的竞争力。因此,有必要探索零售行业一线
图像的非真实感渲染是计算机图形学领域的一个重要研究方向,其具体的含义是指利用计算机来模拟各种视觉艺术的风格,从而绘制出带有艺术风格的图像。卡通风格也是一种图像艺术风格,伴随着近年来新媒体艺术的兴起和社交网络的流行,大众对于个性化卡通风格图像的需求日益增长,对于图像卡通风格渲染算法的研究具有重要的意义。图像卡通风格渲染是一项具有挑战性的图像非真实感渲染任务,其目的是将真实照片转换为卡通风格的非真实感
近年来,随着模式识别技术和计算机运算速度的快速发展,越来越多的深度学习技术被应用于各个领域。而基于深度学习的唇读技术也因其出色的识别性能受到了国内外学者的广泛关注。研究唇读的目的是利用嘴唇图像序列的视觉信息来补充语音等听觉信息,进而提高计算机系统对语言的理解能力。嘴唇图像分割有利于自动化提取嘴唇轮廓等信息,直接影响后续说话内容识别模块的性能。因此,实现精确的像素级嘴唇区域图像分割对唇读技术的应用具
得益于硬件计算能力的提升,深度神经网络越来越广泛地应用于计算机视觉任务中。为了提取更多的特征,提高网络的鲁棒性,神经网络呈现出层数越来越深,参数量越来越大的特点。桌面级GPU如NVIDIA 1080Ti完全可以训练和部署大型网络。但是移动设备如智能手机、无人机有着算力弱、带宽小、存储空间少的特点,使得大型的深度学习模型在其上部署面临很大挑战。因此将模型压缩后使其在资源受限的硬件平台上有效部署成为了
近年来,AI技术逐渐产业化。一直备受关注的计算机视觉领域的成果在商品识别、智能安防、智慧城市等领域纷纷落地开花。人脸识别、行人检测、行人重识别、行人搜索等技术与安防领域的实际需求十分契合,也因而得到了越来越多的关注。本文在各种经典计算机视觉任务模型的基础上,对行人搜索技术在实际应用中十分典型的一体化搜索场景和严重非对齐搜索场景进行了分析,并提出了相应的模型与算法。一体化行人搜索场景是指行人检测与行
随着移动设备与互联网的发展,图像数据的使用愈加普遍,对于图像数据进行提炼与表达,即对图像的特征学习也越来越受到人们的重视。对于图像任务,模型的表现很大程度上取决于特征的好坏,良好的特征使得模型更容易提取有效的信息。传统的特征提取方法往往需要手工提取且效果较差,基于深度学习的特征提取方法往往效果较好,但是特征的含义难以理解。目前大多数的特征学习模型采用有监督学习,而本文将使用无监督学习的方式研究如何
散射成像是一种将携带目标信息无序散斑通过后处理算法恢复散射介质后目标图像的技术,散射成像在大气成像、生物组织成像和水下成像等方向都有非常重要的应用前景。散射介质破坏了传统光学成像中的光子直线传播路径,光子的传播方向在散射介质中会被多次随机改变,探测器得到的数据是目标信号被随机改变后的散斑。不仅散射介质会影响成像,光的强弱也会影响成像过程。在弱光下,光信号更多呈现出光的粒子特性。传统的探测器无法应对