论文部分内容阅读
异常声音识别是声音识别系统中的一种,是应用音频波形中反映异常声音的特征参数,自动识别异常声音的一种技术。声音识别系统具有计算效率高,复杂度小,采集设备简单,成本低,而且能更好的保护人们的隐私等优点,它还可以和视频监控系统协作。因此,声音识别技术是具有广泛的应用前景,值得很多人投身其研究中。本文针对异常声音识别系统低识别率和高复杂度的问题,将梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,简称MFCC)与短时能量混合特征应用到异常声音识别系统中。该混合特征使得高斯混合模型(Gaussian Mixture Model,简称GMM)分类器可获得比使用MFCC特征及其差分MFCC更好的分类性能。分类器的平均识别率可达到90%以上,并且计算复杂度小。给出了系统实现的具体步骤,并通过仿真实验证明了该算法的有效性。在性能研究方面,分析了不同特征参数下异常声音识别系统的识别率,获得特征参数的性能与系统的识别率相关的结果;此外还分析不同高斯混合阶数下异常识别系统的识别率,获得高斯密度个数的选择与训练音频数据量相关的结果;最后对比分析了最大期望(Expectation Maxinum, EM)和最小描述长度(Minimum Description Length, MDL)算法,结果表明MDL算法能够有更好的应用空间。在系统构建方面,本文用MATLAB实现了一个完整的异常声音识别系统,包括音频信号的预处理,特征提取以及分类器的训练和识别。在预处理模块中,对原始音频进行了归一化,预加重,重叠分帧等处理;在特征提取模块中,提取了MFCC,过零率(The Zero-Crossing Rate, ZCR),短时能量(Short-Energy),对数频率倒谱系数(The Log Frequency Cepstral Coefficients, LFCC)等特征参数。在模型训练与识别模块中,使用了高斯混合模型作为分类器,它与其他分类器相比,能更好的分辨出异常声音的差别。该系统实现了对8种异常声音的分类识别,能够得到较高的识别率,而且系统性能好,方法简单,计算效率高,能够保护人们的隐私。