论文部分内容阅读
为了实现智慧城市、智能交通等关键技术,对城市中交通工具发出的声音进行识别检测变得日益重要。目前大多数声音识别检测的研究都是基于强标签数据集,但获取强标签音频数据比较困难,所以我们需要研究如何在弱标签数据集下对城市交通工具声进行识别检测。论文从AudioSet数据库中选取了一个包含17种城市交通工具声的弱标签数据集进行研究,该数据集中每一类声音的样本数分布不平衡,而且数据集中的音频样本存在弱标签性、多源性的问题。论文将围绕这三个问题,就如何在弱标签数据集下提升对城市交通工具声的识别检测精度展开研究。数据集中声音的弱标签性,使得传统的声音识别检测模型不再适用。论文使用声音的对数梅尔频谱系数(MFSC)组成的时频图作为特征,并且针对研究任务的特点搭建了一种卷积循环神经网络(CRNN)作为声音识别检测系统的基线模型,该模型由卷积神经网络(CNN)和循环神经网络(RNN)组合而成,可以更充分地利用声音特征,适用于弱标签声音的识别检测任务。针对数据集中每一类声音样本分布不平衡的问题,论文使用了一种按比例选取训练批次数据的方法,该方法可以使模型充分学习到每一类声音的特征,缓解了模型训练时的有偏性问题,大幅提升了模型对城市交通工具声识别检测的精度。对于声音的多源性问题,论文使用了重要性加权识别方法和多尺度注意力融合方法。重要性加权识别方法将模型对声音的检测结果根据重要程度进行加权融合,得到最终识别结果,该方法可以更多地利用有效声音所在帧的检测结果,忽略噪声帧的检测结果。多尺度注意力融合对模型中CNN部分加入了注意力门控机制和多尺度卷积融合,注意力门控机制可以控制模型学习声音中重要的特征并且忽略不重要的特征,使模型更关注有效声音的特征而忽略噪声特征。多尺度卷积融合可以使模型提取到多个维度的声音特征并且进行融合,得到更加丰富的特征。重要性加权识别方法和多尺度注意力融合方法均可提升模型对城市交通工具声识别检测的精度。为了进一步提升模型性能,论文在CRNN模型的RNN部分使用了一种多滑窗分帧法。该方法通过设置不同长度的滑窗对CNN的输出进行分割,将分割后的特征输入进多个RNN分别进行识别检测,最后将多个识别检测结果进行融合。该方法充分考虑到了每一种声音在不同帧长维度下的特征,使模型学习到更加丰富的特征,有效提升了模型对声音识别检测的精度。论文最后还使用了两种多模型融合的方法对模型进行融合,该融合方法也可以大幅提高模型对城市交通工具声识别检测的精度。通过仿真实验可以发现,在弱标签城市交通工具声数据集下,论文使用的CRNN基线模型相比于传统的声音识别检测模型对声音的识别检测精度更高,并且论文使用的重要性加权识别方法、按比例选取训练批次数据方法、多尺度注意力融合方法、多滑窗分帧法和多模型融合方法均可提升模型对声音识别检测的精度。论文最终使用的融合模型对测试集声音识别结果的F1值为57.5%;检测结果的ER值为0.627,F1值为45.1%。