基于深度学习的声场景分类方法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:jy02324491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声场景分类技术是指通过处理音频信号,判断出音频所属场景的一类算法,在智能手机、音频内容检索、机器人智能感知和无人驾驶等领域发挥着重要的作用。近年来,相关领域的国际竞赛和快速发展的深度学习算法,进一步推动了声场景分类技术的发展。本文综合考虑现有文献中的不足之处和实际工程需求,对声场景分类算法进行了若干改进,通过构建基于改进卷积神经网络的模型融合算法和使用迁移学习算法,对声场景样本进行信息提取和特征学习,实现了声场景分类系统识别准确率的提升。本文的主要工作和创新点如下:(1)阐述了声场景分类任务的研究背景和意义,并对发展历程与研究现状进行了简要的分析。介绍了现存的几种权威数据库及相关竞赛,并从声场景特征及声场景识别算法等层面总结了相关的研究历史及近期竞赛结果。(2)阐述了声场景分类系统的基本框架结构,将系统划分为数据划分模块、预处理模块、特征提取模块、分类模块和测试模块,并进一步分析了各子模块的主要功能。结合实际应用背景,详细讨论了预处理模块中的关键算法:分帧、加窗、预加重;特征提取模块中常用的典型声学特征:短时能量、短时过零率、梅尔倒谱系数与常用的特征组合;分类模块中常用的机器学习和深度学习算法,为后续章节的研究奠定理论基础,并通过试验对比了几种算法模型的效果。(3)将模型融合算法应用于声场景分类任务,并设计了一种改进的双通道卷积神经网络模型作为模型融合的弱分类器。首先,设计了双通道卷积神经网络,在全连接层之前,使用独立的不相关的卷积层分别处理不同的通道特征,将得到的特征图拼接输入至全连接层进行后续处理;其次,使用音频梅尔频谱特征及其差分作为模型输入,并使用两种音频声道分离方式与三种音频切割方式构造了六种不同的特征,相应训练出六个不同模型;进一步,分别使用投票法和以SVM为强分类器的stacking融合方法进行模型融合,得到最终模型。通过在TUT Urban Acoustic Scenes 2018数据集上进行训练和测试,验证了算法的有效性和优越性。(4)针对声场景数据量不足问题,引入了基于参数的迁移学习和基于特征表示的迁移学习两种声场景分类算法。基于参数的迁移学习通过迁移VGGish模型中卷积层的参数,将源数据集Audioset中的知识迁移至目标数据集TUT Urban Acoustic Scenes 2018中。基于特征表示的迁移学习利用深度稀疏自编码器构建特征迁移映射空间,完成TUT Urban Acoustic Scenes 2018数据集与TUT Urban Acoustic Scenes 2018 Mobile数据集特征之间的相互迁移。实验验证了基于参数的迁移学习和基于特征表示的迁移学习的有效性。
其他文献
2009年12月2日,本溪钢铁集团南芬矿扩产项目首批3台卡特彼勒789C大型矿用卡车交机投产仪式在南芬矿现场顺利举行,揭开了全球最大矿用设备制造商卡特彼勒公 December 2, 2009
大数据、云计算和人工智能的快速发展,使得传统的电子政务已难以适应当今的新形势,建设一个融合大数据、数字化和智能化的政务平台已成为当今政府寻求发展的新思路。自2017年
作为蛇绿岩型铬铁矿的重要产区,新疆北部地区发育多处中小型铬铁矿矿床。铬尖晶石一直以来是作为研究地幔橄榄岩成因与铬铁矿形成过程的重要载体之一。本文在对萨尔托海、鲸
随着世界经济的发展,贫困问题已成为当今世界最尖锐的社会问题之一。新中国的扶贫历程分为5个阶段,现正处于精准扶贫阶段。西藏民族大学在陕西省咸阳市政府的安排下,对口帮扶