论文部分内容阅读
传统的安全监控是基于视频图像的,而且大部分主要用于事后查看,近年来,音频监控也得到了许多研究。音频监控因其良好的实时性以及对视频监控的辅助,具有重要的研究和实用价值。音频监控通过音频事件检测来进行,而监控领域的音频事件检测研究还存在一些难点,比如事件类别的特征空间复杂,难以找到有效的音频特征,比如由于音频事件发生时间的随机性,不同事件在时间上可能重叠在一起,比如训练数据可能不平衡等问题。本文针对安全监控下的四种音频事件做检测,包括脚步声、玻璃破碎声、开关门声和语音。鉴于特征提取在模式识别系统中的重要作用,本文针对特征空间过于复杂这个问题,做了一些工作,主要包括以下三个方面:1.搭建和优化基于SVM的音频事件检测系统本文采用支持向量机作为分类器,然后搭建MFCC特征的基线音频事件检测系统。搭建好最初的系统之后,采用两种平滑算法来改善系统性能,效果不理想。自己设计了一种简单的平滑方法,减少了大量的输出事件碎片,总的准确率和召回率分别由35.0%和82.7%提升到51.8%和86.1%。后来进一步发现类别之间的准确率、召回率差别很大,经分析发现问题在于训练数据不平衡,针对这个问题,做了随机欠采样的试验,并最终确定后续实验训练样本欠采样的比率。2.调研分析了大量音频特征,提出幅度区间比率特征在调研和分析了大量音频特征的基础上,总结设计特征的方法和思路。受子带能量比特征的启发,提出幅度区间比率特征,以及使用这些比率值套用信息熵的计算公式算出一个熵值作为特征。之后对新提出的特征做了实验,并对比与MFCC特征的效果,发现单独使用新特征效果不理想,但是结合MFCC和新特征能够提升系统准确率,说明新特征具有一定的效果。3.研究了PCA和LDA特征变换算法,并对LDA算法做出了改进应用PCA和LDA特征变换算法,将原始高维特征映射到低维空间中,使得在新空间中能够更好地分辨各个类别,实验结果显示LDA相对于PCA,效果更好,并且特征维数也能降得更低。之后针对LDA类间距离的衡量可能存在的问题,修正类间散度矩阵的计算公式,具体使用了三种不同计算方法。实验结果显示改进LDA算法的准确率、召回率都获得了一定的提升,错误比率AED-ER也同时降低了一些。