论文部分内容阅读
视频监控是公共安全预警领域的重要技术手段,已经得到广泛应用。异常声音从听觉角度有效地反映了监控场景的异常情况,弥补了视频监控的不足。公共场所的异常声音识别能够有效预警危急情况,受到了国内外研究机构的广泛关注。本文在调研国内外相关研究文献的基础上,对异常声音在公共场所环境下的识别开展了以下工作:针对异常声音数据库资源缺乏的问题,建立了公共场所异常声音数据库。首先介绍了异常声音,然后根据公共场所异常声音发生的概率和危害程度,收集和整理了公共场所异常声音数据集,以弥补异常声音数据库资源的缺乏,其中包括枪声、爆炸声、玻璃破碎声等,最后分析了这些异常声音的时频特性。针对安全监控场景复杂、声音信号非平稳等因素造成的异常声音识别率低的难题,本文提出了基于MVDR(Minimum Variance Distortion Less Response Spectrum Estimation)谱估计的改进MFCC(Mel-Frequency Cepstrum Coefficients)与短时能量(STE,Short-term Energy)融合的异常声音识别方法。该算法首先采用MVDR谱估计代替传统MFCC中的FFT(Fast Fourier Transformation)谱估计,提取MVDR-MFCC特征,然后融合短时能量特征,从不同方向表征异常声音。仿真实验表明,与传统异常声音识别方法相比,新算法识别性能更好,平均识别率提高2.5%,能有效识别打碎玻璃、尖叫、爆炸、枪击等异常声音,更适用于监控场景。针对复杂监控场景中基于MFCC特征的异常声音识别鲁棒性差的难题,本文提出了基于Hilbert谱与独立分量分析(ICA,Independent Component Analysis)的异常声音识别方法。该算法参考MFCC提取流程,首先计算Hilbert谱估计结果的功率谱,然后功率谱通过Mel滤波器组后再取对数,最后通过ICA实现去相关、降维和降噪。仿真实验表明,与MFCC方法相比,该算法改善了系统性能,有效地提高了异常声音识别系统的鲁棒性。