论文部分内容阅读
环境声音识别通常采集环境中的音频数据并对其进行分析和识别,从而达到对环境感知的能力。它在音频取证、声源定位与分类、声音事件检测和场景识别等领域都具有重要的意义。本文针对自然环境下动物声音识别受到非平稳的噪声干扰及复杂声音场景识别问题,提出使用栈式降噪自编码器(Stack Denoise Auto-encoder,SDA)的声音增强算法、卷积神经网络(Convolutional Neural Networks,CNN)结合随机森林(Random Forest,RF)的声音场景识别方法。本文的主要内容如下:(1)声音增强算法。针对自然环境中各种非平稳背景噪声对声音特征干扰,传统方法无法有效滤除噪声成分,提出使用多信噪比混合的声音数据增强方式结合多层卷积结构的SDA模型进行训练,使带噪信号的声谱图可以滤除噪声的成分。首先,使用纯净声与环境中的噪声以不同的信噪比进行混合、并对混合后的声音信号进行gammatone声谱图生成;接着,将带噪声音信号的声谱图作为SDA的输入,让其有监督地输出纯净声的声谱图。(2)声音场景的特征提取。使用Mel能量谱结合CNN对高维声谱特征的自主学习能力来提取声音场景的特征,在CNN模型进行训练后截断全连接层输出来提取CNN中间层特征。主要步骤如下:首先,对声音场景进行短时傅里叶变换生成短时功率谱,对短时功率谱使用Mel滤波器组进行滤波生成Mel能量谱;然后,对Mel能量谱进行窗移得到片段样本集;最后,使用片段样本集对CNN完成两阶段训练并得到其权重,将CNN全连接层的输出作为表征该声音场景的特征。(3)声音场景的识别与分类。针对传统的CNN模型使用的是softmax分类器、其抗噪性能较弱且容易过拟合等现象提出使用RF分类器对CNN全连接层的输出值作为特征进行分类。首先,对CNN载入训练好的权重,截断CNN的全连接层输出,将其作为随机森林的训练特征集。然后,使用该特征集构建决策树,形成随机森林;测试时,将随机森林的投票结果作为预测结果。本文提出在自然环境下的动物声识别中使用基于SDA的声音增强算法以及在DCASE2016提出的声音场景识别问题中采用Mel-CNN-RF的识别方法。在相关的实验结果和分析中,表明了本文使用的深度学习方法在环境声音识别中的有效性。