论文部分内容阅读
环境声音承载着大量有关日常环境和物理事件的信息,开发自动提取并分析这些信息的技术在一些应用中具有重要意义。它可以使各种便捷设备更加智能化,可以应用于军事、刑侦等领域。传统的声学场景分类器如支持向量机、高斯混合模型、隐马尔可夫模型和K近邻模型已经不适用于复杂的多分类任务,需研究新的技术提高识别率。深度神经网络模型可以拟合任意非线性任务,而在众多深度神经网络当中,卷积神经网络发展迅速,应用最为广泛,所以本文采用卷积神经网络作为分类器。本文基于经典的卷积神经网络如Alex Net、VGGNet、Res Net设计了Alexish、VGGish、Resish三种网络结构。其中,Alexish保留了Alex Net的特点并做出了改善,把Alex Net中的局部响应归一化改成批标准化,不仅加快了训练速度还增强了泛化能力。6层Alexish网络结构对10个场景分类识别率最高达到67.6%。VGGish网络把VGGNet网络的第一层全连接层改为全局平均池化,在不影响准确率的前提下减少运算量。9层双通道VGGish网络结构最高识别率为71%。Resish借鉴Res Net的跳接机制在VGGish基础上构造出18层的Resish网络结构,识别率达到71.4%。在声学特征提取方面,本文采用梅尔对数谱及谐波冲击源分离梅尔对数谱两种声学特征。梅尔对数谱充分考虑人耳听觉的非线性特性,谐波冲击源分离方法考虑了音频自身组成特点。实验结果表明,基于谐波冲击源分离的梅尔对数谱声学特征可以使网络得到较高的准确率。另外,为了充分利用音频两通道间的差异性,分别提取音频左右声道(左声道和右声道)、左右声道相减结果及左右声道相加结果作为双通道网络输入,经过卷积神经网络提取特征后再进行特征联合进行分类。实验结果表明,双通道网络特征联合方法的识别率比单通道特征方法高。为了进一步提高准确率,本文利用不同模型对不同场景识别敏感度的差异性,提出通过集成学习方法结合多个卷积神经网络模型以形成一个强分类器。最终本文利用Bagging综合7个卷积网络模型并采用相对多数投票的结合策略对10个声学场景进行分类并获得74.7%的准确率,比2019年声学场景事件检测及分类大赛基线系统准确率高出12.2%,有效提高了声学场景识别准确率。