论文部分内容阅读
机器听觉,是指机器利用声音传感器采集音频数据,并对其进行分析从而判断声音的来源、变化等过程的技术,声音事件检测(Sound Event Detection,SED)是其重要内容之一。声音事件检测就是将采集到的声音进行分类,并判断当前发生的事件或所处的场景,在智能家居、安防监控、无人驾驶等领域有着广阔的应用前景。随着深度学习技术的不断发展,利用神经网络技术进行声音事件检测已经成为了越来越多研究者的选择。目前,该领域的研究主要存在两方面的难点,其一是缺少带有声音事件起、止时间的强标记数据情况下,如何利用弱标记、甚至是无标记数据进行学习;第二是对于更符合实际生活场景的多声音事件检测系统,如何强化声音事件的特征,提高识别的准确率。围绕上述两个问题,本文开展了以下研究:首先,优化了使用弱标签数据学习的神经网络架构,在充分利用循环神经网络(RNN)提取上下文信息基础上,使用残差网络(ResNet)替代卷积神经网络(CNN),加深网络深度,充分利用弱标记数据,同时使用通道注意力机制,强化特征提取,改善识别效果;其次,构建半监督学习框架Mean-Teacher模型,利用强标记数据、弱标记数据与无标记数据三类数据训练模型,有效解决标记数据不足的问题,同时利用多通道特征,构造多尺度融合特征,从而增强特征,改善识别效果;最后,构造了一个可视化的实时声音事件检测平台,在计算机上实现。该平台在Windows系统实现。利用麦克风设备采集声音后,将其送入信号处理及声音事件识别模块,结果利用python的GUI模块输出在展示窗口中。同时为了增强其实时性的展示,该平台提供了实时的声音波形图及录音功能。为了验证模型改善及特征强化效果,分别在DCASE 2017 task4和DCASE 2019task4数据库上进行了实验验证。实验结果表明,本文使用的网络模型及特征强化方案对于改善系统性能有显著作用。其中,基于弱标记数据的声音事件检测系统“Res-CBAM-RNN”较基线系统,错误率ER降低了0.2,F-Score提升了21%,比2017年该任务冠军结果提升了0.1%;基于半监督学习的声音事件检测系统“多尺度特征ResNet-RNN”F-Score较基线提升了11%,在2018评估数据集上的结果比2018年比赛的最佳结果提升了0.4%。