论文部分内容阅读
音频事件检测是一种检测音频事件类别及其起止时间的技术,它在安全监控、生物多样性保护、多媒体检索推荐和场景感知等民用与工业领域中有着广泛的应用。在现实环境中,音频事件可能相互混叠,要检测出音频事件的类别及其起止时间难度较大,虽然目前国内外不少科研单位都对此开展了研究,但是由于发展时间短,起步较晚,目前的检测技术依然不够成熟,还存在较大的研究空间。在需要检测出准确时间边界的应用场景中,检测方法主要依赖于有监督学习,由于音频事件的时间边界只能依赖于人工标注,有监督学习所用到的数据集往往规模较为有限。在数据集有限的情况下,如何构建高性能的深度学习模型是目前的研究难点。本文开展了基于深度学习的音频事件检测方法研究,主要从人工特征提取与深度学习建模两个方面出发,研究了梅尔频率倒谱系数和对数梅尔谱特征的提取方法,围绕着深度学习的基本理论,对卷积神经网络、循环神经网络和注意力机制开展了研究,并在街道场景数据集上,对提出的检测模型开展了检测分析。主要做了以下三个方面的工作:(1)建立了基于卷积神经网络的检测模型,通过实验对四种特征提取方案开展了检测分析,并探究了梅尔频段数对检测性能的影响。采用基于对数梅尔谱的多通道多窗口长度特征,对由卷积神经网络与循环神经网络组成的不同模型开展了检测实验,其中最佳检测模型BGNet的F1值为0.60,ER值为0.63,有着良好的检测效果。(2)对压缩激励注意力方法开展研究,在BGNet网络架构的基础上,搭建了三种基于压缩激励的改进模型,其中BGNet-SE3的F1值为0.63,ER值为0.55,检测结果表明:压缩激励方法可以显著改善音频事件检测模型的检测性能。(3)对卷积注意力方法开展研究,分别对以下三种注意力机制开展实验:卷积注意力方法的通道注意力机制、空间注意力机制和完整的卷积注意力机制,在BGNet网络架构的基础上,搭建了三种基于空间注意力的改进模型、三种基于通道注意力的改进模型和三种基于卷积注意力的改进模型,其中BGNet-SP2的F1值为0.63,ER值为0.56,BGNet-CH3的F1值为0.64,ER值为0.57,对比该领域的其他方法,提出的改进模型具有良好的检测性能。