论文部分内容阅读
智能移动终端的场景识别是智能化机器研究的重要分支,在终端定位导航、路径规划和安防监控等方面具有广阔的应用前景。基于音频的场景识别不仅能解决图像处理计算周期长和动态性能差等问题,还具有不受光线变化干扰的特点。智能移动终端配备高灵敏度传感器、大容量内存和高性能CPU,不仅可采集音频信号,还能满足存储和处理音频信号的需要,因此基于智能移动终端的音频场景检测方法研究具有重要意义。本研究首先在智能移动终端上设计了一个应用程序,实现实时音频信号采集、降噪和端点检测。针对传统小波软阈值函数的系数存在恒定偏差和硬阈值函数容易在信号突变处出现伪吉布斯现象的问题,提出了一种新的小波阈值函数来提高降噪效果,新阈值函数在阈值点处连续并且引入了一个指数型收缩因子。采用信噪比作为降噪效果的评价指标,实验证明表明采用新阈值函数对实时音频信号降噪后信噪比可达19.47dB,比传统软硬阈值去噪法的信噪比提高了5dB。为判断采集音频信号的质量和去除静音段,对降噪后的音频信号进行端点检测,采用端点标记正确率作为端点检测效果的评价指标。实验表明,基于改进谱熵的端点检测正确率为90.03%。在借助DCASE数据库提供的音频信号的基础上搭建了音频事件数据库(数据量约为10G),在剔除错误标签和无用音频信号后进行人工构造、标签索引等特征工程化处理。数据库由物理层、声学特征层和语义层构成,物理层保存底层传输信息,声学特征层保存了时频域、倒谱域特征系数和Mel能谱图,语义层保存了实际标签和模型标签。在批量处理时使用音频编号就可以直接读取对应音频的全部信息,这样可以节约计算开销并提升分类模型的效率。采用两种识别模型开展了在线实时音频场景检测研究:1)将融合后的音频特征参数输入随机森林进行识别;2)将Mel能谱图输入卷积神经网络进行识别,对比分析两种不同特征方式对音频场景识别结果的影响。实验结果表明:基于传统特征系数融合随机森林方法的识别率约为77%,而基于Mel能谱图和卷积神经网络的识别率约为68%。因为时频、倒谱域特征系数融合的方式能更好的表征音频信号的动态变换;而Mel能谱图采用加权平局的通道融合方式损失了音频信号的空间变化特征,导致了相似场景识别混淆程度高。