基于知识蒸馏的音频分类技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:qingming_369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频是信息的重要载体,针对音频信号处理的研究具有广泛的应用价值。深度学习方法能够自动从海量数据中高效的提取任务相关特征,在音频分类任务中展现了其优越的性能,是目前音频分类的主要研究方向。但是深度学习模型伴随着庞大的计算复杂度和存储开销,而声学模型通常部署在资源有限的设备上,资源不足限制了音频分类模型的应用。此外,音频数据时序性强、噪音混杂、特征不突出导致分类模型精度提升困难。音频分类模型精度提升和模型压缩的研究具有重要的工业价值和学术价值。知识蒸馏是一种用于模型压缩和提高模型表现的知识转移方法。本文主要研究知识蒸馏技术在音频分类任务上的应用。针对深度神经网络计算和存储资源占用过大的问题,本文提出对抗性特征蒸馏方法,以训练高性能的小型网络,实现有效的模型压缩。不同于之前工作中使用模型集成、深层网络等会造成资源占用增加的方法来提升模型的表现。本文使用特征层的知识蒸馏方法,在训练阶段迫使小型网络从复杂模型的特征图中学习,降低小型模型的学习难度,同时利用复杂模型的知识增强小型网络的表现,达到模型压缩的效果。此外,本文还使用对抗学习策略来强化特征蒸馏的效果,加强特征图学习过程的监督,减少学习过程中细粒度信息的损失,缩小小型模型与复杂模型的表现差异。在音频分类任务上,对抗性特征蒸馏方法达成76:1的计算量压缩比和3:1的参数压缩比的同时,小型模型的表现能够接近甚至超过大型模型。针对音频特征的单一特征表示无法为模型提供足够的信息,导致模型精度不高的问题,本文提出一种多表示的知识蒸馏训练框架,其能够使用多种音频表示作为输入,并利用其中的互补信息以增强模型表现。一般而言使用神经网络训练音频分类模型需要先将原始音频信号转化为高级的特征表示,在转换过程中经常采用的傅里叶变换、离散余弦变换等操作会造成信息丢失。不同的变换过程得到的音频特征表示的信息存在差异,使用单一表示作为输入的网络只能学习到原始信号的部分信息。而采用模型集成、特征拼接的方法融合利用不同特征表示的信息会导致计算复杂度和存储资源的增加。本文使用基于知识蒸馏的协作学习框架共享利用从不同的模型结构和不同表示中学习的互补信息,以在不增加资源成本的前提下提高音频分类模型的表现。在声学场景分类和通用音频标记任务上的实验证明了本文的多表示知识蒸馏框架的能够有效的提升模型的表现。
其他文献
星载合成孔径雷达(Synthetic Aperture Radar,SAR)是一种重要的遥感观测方式,相比于机载合成孔径雷达,星载SAR具有更高的平台稳定性和更大的测绘带宽度。目前,星载SAR正朝着低频段、新体制的方向发展。低频段SAR具有更强的穿透能力和时间相关性,在军事侦察、海洋监测及生物量测量等领域都有着重要的应用。同时,滑动聚束模式、扫描模式、TOPS(Terrain Observatio
随着我国制造业的迅速发展,对电动机的需求量不断增加。异步电动机作为制造业中重要的电力设备,在出厂时需要经过一系列测试。异步电动机生产企业在提高产量的同时,也提高了对电动机的出厂测试要求。本文设计研发了一台拥有双测试工位的异步电动机综合测试系统,涵盖了电动机出厂试验电气安全测试和性能测试中多项测试内容,具有标准模式和自动模式两种测试模式,适用于单相和三相异步电动机。本文主要研究内容包括以下几个部分:
学位
多输入多输出(Multiple-Input Multiple-Output,MIMO)雷达空时自适应处理(Space-Time Adaptive Processing,STAP)技术可在杂波背景下精确探测目标。为降低对训练样本数的需求,本文将稀疏理论与MIMO-STAP技术相结合,研究了基于稀疏恢复的MIMO-STAP相关理论。主要研究工作如下:1、介绍了机载MIMO雷达探测目标的几何模型和杂波、
随着OTN传送网的广泛建立,OTN设备不断推陈出新,OTN信号源在提升产品研发效率、缩短研发周期、保证产品稳定性方面的作用也越来越重要。在国内遭遇技术封锁,OTN信号源长期依赖国外进口的背景下,具有自主知识产权OTN信号源的研发被提上日程。为了弥补国内OTN信号源的空白,本文从OTN信号的特点出发,研究了多体制OTN信号源的相关设计以及具体实现的方式,在基本信号源功能的基础上增加了环回测试功能以及
随着移动通信技术的快速发展,高有效性、高可靠性的无线通信技术不断引发关注。其中,正交多载波频分复用技术(OFDM,Orthogonal Frequency Division Multiplexing),作为一种具备高频谱效率、抗窄带干扰等特性的经典技术,被广泛应用于各种无线通信的场景中。2012年,基于索引调制的OFDM(OFDM-IM,OFDM with Index Modulation)技术被
随着社会和科学技术的发展,成像技术在军民领域的地位越来越重要。雷达成像技术因其具有全天时全天候的工作特性和穿透性强的特点,在态势感知领域不可被替代。随着高速武器发展和计算机处理性能提高,传统雷达成像方式SAR和ISAR已经不能满足快速成像需求,亟需一种新体制雷达实现快速高分辨成像。本课题研究了基于MIMO雷达体制下收发阵列布局的优化方法,并结合阵列结构和目标特性对基于压缩感知理论的成像方法进行讨论
基于到达时间差(Time Difference of Arrival,TDOA)的多站无源定位,又称为时差法多站无源定位,是指通过多个接收站对来自同一目标辐射源的非合作信号进行接收处理,从而获得目标辐射源的非合作信号到达不同接收站的时间差,根据时间差信息建立包含辐射源位置的相关定位方程,实现对目标辐射源位置的解算。在二维平面内,到达时间差量测信息对应双曲线,多个接收站获得的双曲线的交点就是目标辐射
太赫兹孔径编码无相位成像(Phaseless Terahertz Coded Aperture Imaging,PL-TCAI)是近年来提出的一种新型雷达成像技术,其主要是在太赫兹孔径编码成像(Terahertz Coded Aperture Imaging,TCAI)的基础上,采用超材料编码天线来对太赫兹波进行随机调制,使成像区域产生随机分布的辐射场,并利用非相干探测器来对回波信号的强度进行探测
惯性/天文组合导航系统由于其自主性、高精度、抗电磁干扰的能力,在军用和民用领域均有广泛应用。本文针对强背景噪声条件下的应用,以解决惯性/天文组合导航系统星光探测难题为重点,围绕星敏感器星图信噪比增强和惯性/天文组合导航误差抑制的问题展开研究,具体内容如下:(1)为了提高强背景噪声条件下的暗星探测能力,提出了一种姿态关联帧叠加方法,利用惯导信息辅助星敏感器增强星图信噪比。仿真和实验结果表明:n帧星图