论文部分内容阅读
如今在人们的生活中充斥着各种声音,其中一些声音是危险事件的反映,例如爆炸声、枪声、尖叫声等,对人们有危险警示作用,因此危险声音检测有着潜在的应用价值。近年来危险声音检测得到越来越多专家学者的研究,已经逐渐成为音频信号处理中的一项重要内容。目前对其研究大多停留在使用人工选择特征和传统的机器学习方法,例如MFCC特征、支持向量机,高斯混合模型等,这些方法面临着难以选择良好特征和解决复杂分类的问题。尽管当前也有部分研究尝试使用深度学习方法,但是它们设计的网络模型大多结构单一、层次简单,可迁移性较差。本文对基于深度学习的危险声音检测方法进行了研究,设计了多种网络模型,对比使用传统方式的基线系统,逐步提高了危险声音检测准确率。本文主要工作内容和创新如下:(1)阐述了深度学习的基础理论知识,设计了基于特征表示和分类的危险声音检测框架,依据框架搭建了基于传统MFCC特征和GMM模型的声音检测基线系统。对该系统在本文统一的危险声音数据集上进行开发和测试,获取训练与测试两组检测准确率分别为77%和68%。可以看出该方式能初步胜任危险声音检测任务,将其作为后文检测系统的对照组。(2)设计搭建了基于深度学习模型的危险声音检测系统,选择64维的对数梅尔谱图作为输入特征,分别设计了DNN模型、CNN模型、混合模型并将其作为分类器。DNN模型使用了3个隐藏层,激活函数选用ReLu函数,为了防止训练过程过拟合,添加了Dropout层。CNN模型是对VGG-16的修改,为了防止过拟合,网络中除了添加Dropout层,还使用了BN机制。考虑到声音数据的时序性,混合模型主要使用CNN加RNN的方式实现,其中CNN部分是对CNN模型的修改,RNN部分选用普通RNN和LSTM。将该系统在本文数据集上进行开发和测试后得到检测结果,使用DNN、CNN、C-RNN、C-LSTM模型的系统危险声音检测准确率分别为74.5%、86.2%、90.0%、91.6%。可以看出使用深度学习模型和对数梅尔谱图特征的系统具有良好的检测效果,且检测准确率比基线系统均有较大的提升。比较三种深度学习模型可以看出,混合模型要比单一DNN,CNN模型具有更高的检测准确率,而且C-LSTM的检测效果也比C-RNN略有提升。