论文部分内容阅读
声场景分类技术是指通过处理音频信号,判断出音频所属场景的一类算法,在智能手机、音频内容检索、机器人智能感知和无人驾驶等领域发挥着重要的作用。近年来,相关领域的国际竞赛和快速发展的深度学习算法,进一步推动了声场景分类技术的发展。本文综合考虑现有文献中的不足之处和实际工程需求,对声场景分类算法进行了若干改进,通过构建基于改进卷积神经网络的模型融合算法和使用迁移学习算法,对声场景样本进行信息提取和特征学习,实现了声场景分类系统识别准确率的提升。本文的主要工作和创新点如下:(1)阐述了声场景分类任务的研究背景和意义,并对发展历程与研究现状进行了简要的分析。介绍了现存的几种权威数据库及相关竞赛,并从声场景特征及声场景识别算法等层面总结了相关的研究历史及近期竞赛结果。(2)阐述了声场景分类系统的基本框架结构,将系统划分为数据划分模块、预处理模块、特征提取模块、分类模块和测试模块,并进一步分析了各子模块的主要功能。结合实际应用背景,详细讨论了预处理模块中的关键算法:分帧、加窗、预加重;特征提取模块中常用的典型声学特征:短时能量、短时过零率、梅尔倒谱系数与常用的特征组合;分类模块中常用的机器学习和深度学习算法,为后续章节的研究奠定理论基础,并通过试验对比了几种算法模型的效果。(3)将模型融合算法应用于声场景分类任务,并设计了一种改进的双通道卷积神经网络模型作为模型融合的弱分类器。首先,设计了双通道卷积神经网络,在全连接层之前,使用独立的不相关的卷积层分别处理不同的通道特征,将得到的特征图拼接输入至全连接层进行后续处理;其次,使用音频梅尔频谱特征及其差分作为模型输入,并使用两种音频声道分离方式与三种音频切割方式构造了六种不同的特征,相应训练出六个不同模型;进一步,分别使用投票法和以SVM为强分类器的stacking融合方法进行模型融合,得到最终模型。通过在TUT Urban Acoustic Scenes 2018数据集上进行训练和测试,验证了算法的有效性和优越性。(4)针对声场景数据量不足问题,引入了基于参数的迁移学习和基于特征表示的迁移学习两种声场景分类算法。基于参数的迁移学习通过迁移VGGish模型中卷积层的参数,将源数据集Audioset中的知识迁移至目标数据集TUT Urban Acoustic Scenes 2018中。基于特征表示的迁移学习利用深度稀疏自编码器构建特征迁移映射空间,完成TUT Urban Acoustic Scenes 2018数据集与TUT Urban Acoustic Scenes 2018 Mobile数据集特征之间的相互迁移。实验验证了基于参数的迁移学习和基于特征表示的迁移学习的有效性。