论文部分内容阅读
声音作为一种重要的信息载体,由于其易收集、不受角度和光线的限制等优点,常被用于辅助环境感知和信息决策。声音事件识别技术正是声音识别的典型应用。作为一个具有广阔应用前景的研究领域,声音事件识别备受研究学者们的关注。通过接收并处理环境中的声音信号,声音事件识别技术可以侦测判断出环境中的物体与发生的事件,例如鸟叫声、枪声和敲门声等,并能迅速地感知到环境中的变化,例如脚步声由远及近等。因此,声音事件识别技术已被用于安防监控、音频内容检索、医疗监护和机器人智能感知等领域中,为新型的人机交互方式和智能机器听觉系统提供了帮助。声音事件识别技术自上个世纪80年代初发展至今,各种特征提取方法和分类算法层出不穷,取得了长足的发展。并且自2006年起,CLEAR和DCASE等声音事件识别领域的国际竞赛如火如荼地展开,进一步推动了声音事件识别技术的发展。此外,近年来深度学习的出现,为声音事件识别技术的突破提供了可能。深度学习以深度神经网络为主要框架,并由此衍生出各类用于不同结构的网络,诸如卷积神经网络、循环神经网络和深度信念网络等,这些网络功能不同,被应用于各个领域,并取得了巨大成功。因此,本文主要围绕多种深度学习模型来展开对声音事件识别技术的研究,通过利用各类不同结构的深度神经网络,对声音事件样本进行信息提取和表征学习,进一步提升声音事件识别系统的识别准确率。研究内容主要为以下几方面:首先,对基于循环神经网络的声音事件识别方法进行了研究。通过分析了循环神经网络存在的缺陷——梯度消失和梯度爆炸问题,引出了用于解决此类问题的改进型循环神经网络,例如LSTM和GRU。基于声音事件识别的特点,对声音事件音频样本进行分帧处理,并提取其MFCC作为特征,再结合GRU为分类模型构建了基于循环神经网络的声音事件识别系统。与多种传统模式识别分类算法进行了实验对比,结果表明,基于GRU的声音事件识别模型有效地利用了声音事件天然存在的时序属性,并通过循环层网络解决了长时间依赖性问题,提高了识别的准确率。其次,提出了一种改进的多尺度卷积神网络模型,并将其用于声音事件识别中。传统栈式堆叠结构的卷积神经网络存在缺失低层次特征表示的问题,针对这一问题,通过将网络中的所有卷积层的特征图连接在一起,并利用CCCP层对底层特征图进行通道降维,使得网络最终提取出的特征包含来自各层的特征,从而最大程度上保留了特征信息,构成了多尺度卷积神经网络。此外,对声音事件音频样本提取梅尔频谱图及其时间轴方向和频率轴方向的一阶和二阶差分频谱图,组成多通道梅尔频谱图作为输入特征。在ESC和TUT数据集上的实验结果证明,利用多尺度卷积神经网络结合多通通梅尔频谱图能有效地提取并融合各层次的特征,从而提高识别准确率。最后,提出了一种基于深度卷积生成式对抗网络的声音事件数据增强方法。首先从数据集中提取出的各类SIF特征,并构建了DCGAN网络用于学习此类SIF特征,从而批量产生类似的伪样本。之后利用伪样本在SVM超平面中的距离和在CNN中的判别概率选择质量较好的伪样本,进行数据增强以提高模型的性能。此外,借鉴了对抗训练的思想,在数据增强的同时,加入一些质量较差并在类别分辨上具有模糊歧义的伪样本,用于提高模型的稳定性与鲁棒性。频谱图、多通道梅尔频谱图以及GBVS显著图等特征被用于实验中,在ESC和TUT数据集上的多个特征对比实验以及模型对比实验证明了该方法能有效地提高声音事件分类模型的性能。