论文部分内容阅读
在声场景中识别环境声音,试图从音频数据中识别出隐藏在其中的真实环境。这种技术对于音频取证、生物声音监控、声场景分析、环境安全监控;实时军事关注点的检测、定位跟踪和声源分类;病人监护、非正常事件监测及故障诊断、递交早期维护的关键信息,等都具有重要意义。由于场景不同,与环境声音同时存在的背景噪音也不同,且常以非稳定的形式出现。因此,在各种场景中,尤其低信噪比时,有效地识别环境声音,还是一个具有挑战性的任务。本文将场景中的低信噪比环境声音识别作为研究的切入点,进行如下四个方面的工作:1)低信噪比环境声音识别框架:在吵杂的场景中,背景噪声会对环境声音的识别造成干扰。因此,如何找到一个能够识别低信噪比环境声音的框架是本课题的关键难点。本文提出的框架,将背景噪音与环境声音按估计的信噪比混合,用混合得到的样本训练分类器。2)端点检测与信噪比估计:使用经验模态分解(Empirical Mode Decomposition,EMD)将声音信号分解为多级固有模态函数(Intrinsic Mode Function,IMF),再使用端点检测算法对2-6级IMF进行端点检测,最后经投票确定端点检测结果,用于估算待测环境声音的信噪比。3)特征提取方法:针对环境声音频图的谱纹理特性,提出使用灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)与高阶奇异值分解(Higher-Order Singular Value Decomposition,HOSVD)相结合的特征提取方法。首先使用快速傅里叶变换将声音信号转化为频谱图,接着使用不同方向、不同步长的灰度共生矩阵统计频谱图的纹理特征,最后使用高阶奇异值分解对灰度共生矩阵降维,作为环境声音的特征。4)多随机森林分类器与子随机森林:针对信噪比估计不准确的问题,将背景噪音与环境声音按多个信噪比混合,分别训练多个随机森林(Random Forest,RF),将多个随机森林组合成新的随机森林。针对子频带能量分布图(Sub-band Power Distribution,SPD)特征,提出使用子随机森林分类器进行分类,把特征向量拆分为多个子特征向量,分别训练多个随机森林,最后组成新的随机森林。本文对鸟类、哺乳动物、昆虫这3类40种的环境声音,在6种背景噪音下进行研究及对比实验。结果表明,即使对声场景中-5dB的声音事件,该方法仍然能保持平均70%以上的识别率。