论文部分内容阅读
城市声音监控作为视频监控的补充,可以弥补视频监控受天气、遮挡物等影响的不足。对城市声音的有效监控可提高人们的声学舒适度,对城市中各类场所进行安全预警,同时可为城市管理者提供大量的有价值的指导信息。城市声音识别(Urban Sound Recognition,USR)是城市声音监控的核心内容,城市声音种类繁多,通常包含复杂的背景噪声。长期以来,具有复杂噪声环境的声音信号处理方法一直是研究者关注的热点及难点问题。本文以典型城市声音为研究对象,开展特征提取及识别问题的研究。探讨一种基于卷积神经网络(Convolutional Neural Network,CNN)的城市声音识别方法,为城市声音监控提供核心理论及技术基础。
本文提出一种可变形特征图残差网络(Deformable Feature Map Residual Network,DFM-ResNet),主要针对城市声音对数梅尔谱图在能量集中区域存在尺度多变,几何结构复杂,轮廓边缘不规则,带来的特征提取困难,导致识别性能下降的问题。同时提出应用迁移学习、声音数据增强及特征重标定技术进一步提高网络对城市声音的识别性能。本文开展的主要工作如下:
①充分调研国内外城市声音识别方法研究现状,对典型城市声音时频特性进行分析,深入研究基于CNN进行声音时频图像特征提取及识别的相关方法。本文通过特性分析得出,时频域特性可以较好的描述城市声音的特点。并且由于城市声音往往具有较强的背景噪声,因此,能增强能量较低频率分量显示的对数梅尔谱图,是展示其时频域特性的很好的选择。但对数梅尔谱图能量集中区域存在尺度多变,几何结构复杂,轮廓边缘不规则的问题。相较于传统方法,基于CNN的声音时频图像识别效果较好,但传统的CNN中,卷积核常在图像不感兴趣的区域采样。为此,要解决具有背景噪声的城市声音识别问题,需要进一步对CNN进行改进。
②提出多级特征融合网络用于典型城市声音识别方法。为适应城市声音对数梅尔谱图能量集中区域的尺度变化,同时减少池化等过程造成的特征信息的丢失,设计一种多级特征融合网络(Mult-level Feature Fusion Network,MFFNet)。MFFNet通过由不同大小的卷积核的卷积层组成的Inception模块,适应能量集中区域的尺度变化。设计一种快捷连接方式将网络中未进行池化的特征图与网络较高层特征融合,减少网络特征提取时的信息丢失。将MFFNet用于典型城市声音识别,并提出对典型城市声音进行数据增强及参数迁移,减少城市声音的小样本问题对识别性能的影响。
③提出可变形特征图残差网络用于典型城市声音识别方法。由于②中提出的MFFNet的卷积核大小、形状和采样位置固定,使其不能适应城市声音对数梅尔谱图能量集中区域几何结构及轮廓形状的变化。为此,提出DFM-ResNet解决上述问题。提出的网络的核心为可变形特征图残差模块,主要包括偏移层与卷积层。偏移层将输入特征图的像素点移位,移位后的特征图通过快捷连接与卷积层提取到的特征图叠加,使网络集中在感兴趣的特征图区域采样,并向下级网络传递移位后特征图信息。将DFM-ResNet用于典型城市声音特征提取及识别。与②中相同,也对典型城市声音进行数据增强及参数迁移,并采用重标定模块解决各通道特征权重分配的问题。
④设计并开展相关的验证实验。主要的实验目的为:验证MFFNet与DFM-ResNet的有效性;验证基于MFFNet与DFM-ResNet的典型城市声音识别方法的优越性。实验结果表明:MFFNet和DFM-ResNet对典型城市声音识别均有效,其中,DFM-ResNet性能更优。并且基于MFFNet和DFM-ResNet的典型城市声音识别方法与目前已发表文献的最优方法比,效果得到提高,其中基于DFM-ResNet的典型城市声音识别方法效果较好。证明本文的研究是有效的,并且对具有噪声环境的声音信号处理有一定的借鉴价值。
本文提出一种可变形特征图残差网络(Deformable Feature Map Residual Network,DFM-ResNet),主要针对城市声音对数梅尔谱图在能量集中区域存在尺度多变,几何结构复杂,轮廓边缘不规则,带来的特征提取困难,导致识别性能下降的问题。同时提出应用迁移学习、声音数据增强及特征重标定技术进一步提高网络对城市声音的识别性能。本文开展的主要工作如下:
①充分调研国内外城市声音识别方法研究现状,对典型城市声音时频特性进行分析,深入研究基于CNN进行声音时频图像特征提取及识别的相关方法。本文通过特性分析得出,时频域特性可以较好的描述城市声音的特点。并且由于城市声音往往具有较强的背景噪声,因此,能增强能量较低频率分量显示的对数梅尔谱图,是展示其时频域特性的很好的选择。但对数梅尔谱图能量集中区域存在尺度多变,几何结构复杂,轮廓边缘不规则的问题。相较于传统方法,基于CNN的声音时频图像识别效果较好,但传统的CNN中,卷积核常在图像不感兴趣的区域采样。为此,要解决具有背景噪声的城市声音识别问题,需要进一步对CNN进行改进。
②提出多级特征融合网络用于典型城市声音识别方法。为适应城市声音对数梅尔谱图能量集中区域的尺度变化,同时减少池化等过程造成的特征信息的丢失,设计一种多级特征融合网络(Mult-level Feature Fusion Network,MFFNet)。MFFNet通过由不同大小的卷积核的卷积层组成的Inception模块,适应能量集中区域的尺度变化。设计一种快捷连接方式将网络中未进行池化的特征图与网络较高层特征融合,减少网络特征提取时的信息丢失。将MFFNet用于典型城市声音识别,并提出对典型城市声音进行数据增强及参数迁移,减少城市声音的小样本问题对识别性能的影响。
③提出可变形特征图残差网络用于典型城市声音识别方法。由于②中提出的MFFNet的卷积核大小、形状和采样位置固定,使其不能适应城市声音对数梅尔谱图能量集中区域几何结构及轮廓形状的变化。为此,提出DFM-ResNet解决上述问题。提出的网络的核心为可变形特征图残差模块,主要包括偏移层与卷积层。偏移层将输入特征图的像素点移位,移位后的特征图通过快捷连接与卷积层提取到的特征图叠加,使网络集中在感兴趣的特征图区域采样,并向下级网络传递移位后特征图信息。将DFM-ResNet用于典型城市声音特征提取及识别。与②中相同,也对典型城市声音进行数据增强及参数迁移,并采用重标定模块解决各通道特征权重分配的问题。
④设计并开展相关的验证实验。主要的实验目的为:验证MFFNet与DFM-ResNet的有效性;验证基于MFFNet与DFM-ResNet的典型城市声音识别方法的优越性。实验结果表明:MFFNet和DFM-ResNet对典型城市声音识别均有效,其中,DFM-ResNet性能更优。并且基于MFFNet和DFM-ResNet的典型城市声音识别方法与目前已发表文献的最优方法比,效果得到提高,其中基于DFM-ResNet的典型城市声音识别方法效果较好。证明本文的研究是有效的,并且对具有噪声环境的声音信号处理有一定的借鉴价值。