论文部分内容阅读
自近些年,人工智能的发展日新月异,音频事件检测成为热门研究方向。音频信号用于安全监控的优势在于其是一维信号,存储量小,计算效率高,对于现有的视频监控系统中成本高,复杂度高,存在盲区等问题是一个非常好的弥补。可以说,音频事件检测有着非常广泛的应用前景,值得深入研究。音频事件检测是音视频检测及音频场景分类问题的核心技术,也是智能家居及无人驾驶技术的最核心技术之一。音频事件检测存在着一些技术难点和问题,最核心的问题还是特征的提取问题。本论文从特征入手,分别以色度特征基础提取短时特征,又针对每段音频提取长时特征,同时应用了图谱法与深度卷积神经网络相结合对音频事件检测技术进行研究,针对性的解决核心问题。在本论文中,共使用了三个数据集,纽约大学的公开数据集UrbanSound8K、ESC-10及实验室的自有数据集SMSEC。其中,SMSEC数据集包含门声、脚步声、玻璃破碎声、枪声、尖叫声、说话声等六种。UrbanSound8K和ESC-10都是包含了 10种音频。本论文从音频的本质出发,提出了三种不同的特征提取算法:1.基于长短时特征的识别研究(1)基于色度等特征的短时特征提取本论文提取了色度等特征,提取出每帧对应的特征,做为该帧的短时特征。为了减少特征的冗余性,提升特征的鲁棒性。论文中,对特征采用了标准归一化的方法,并且使用random forest的方法计算特征的重要性,并且去除不重要的特征。实验表明,使用该方法可以显著提升识别效果。在UrbanSound8K中,短时特征-DNN的识别正确率为 55.6%,高于 baseline 中 MFCC-GMM 和 MFCC-DNN 的 50.1%和53.0%,分别高于两者5.5和2.6个百分点。在ESC-10中,短时特征-DNN取得了 76.5%的准确率,远高于该数据集上MFCC-GMM的59.8%及MFCC-DNN的68.50%。在实验室自有数据集上的表现最为明显。短时特征-DNN的效果为91.4%,远高于本数据集上MFCC-GMM的80.6%及MFCC-DNN的73.1%。显然,该特征在多个数据集上都能表现出异常好的效果,说明该特征具有较好的普适性及识别效果。(2)基于统计特征的长时特征提取在短时特征的基础之上,我们做了进一步的研究和理论升华。针对每段音频的多帧短时特征,我们在短时特征的基础之上,提出了多帧音频特征的最大值、最小值、均值、中值、方差、峰度、偏度等统计量作为该段音频的统计特征,并以此统计特征作为长时特征。实验表明,经过提取统计特征,能够显著降低计算的复杂度,提升识别的训练速度和准确率。针对长时特征,我们分别使用了 SVM,Random Forest、DNN与长时特征相结合,得到识别的精准率、召回率、正确率。在 UrbanSound8K 数据集上,SVM、RandomForest、DNN 与长时特征的识别正确率分别达到了 67.90%、67.8%及68.6%,远高于短时特征-DNN 的 55.6%。在 ESC-10 数据集上,SVM、RandomForest、DNN与长时特征的结合识别效果达到了 82.5%、85.3%及84.8%,同样远高于短时特征-DNN的76.5%。在SMSEC上,SVM、random Forest、DNN与长时特征的识别效果分别达到了 95.9%,96.6%及95.5%,同样高于短时特征-DNN的91.4%。该结果也明显好于上届的四分类效果的96.1%。2.基于图谱法的识别研究图谱中含有大量的音频结构信息。因此我们可以使用图谱法对音频事件检测进行研究。本论文中研究了两种图谱,分别是声谱图及色度谱图,声谱图反映了音频的能量、频率、时间的分布。色度谱图是基于色度特征的频谱。这两种图谱分别于深度卷积神经网络相结合,进行探讨图谱法的实验效果。