基于深度学习的声场景分类方法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：jy02324491

【摘要】

：

【作者】

：

李明

【出处】

：

东南大学

【发表日期】

：

2019年01期

【关键词】

：

声场景分类双通道卷积神经网络模型融合迁移学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声场景分类技术是指通过处理音频信号,判断出音频所属场景的一类算法,在智能手机、音频内容检索、机器人智能感知和无人驾驶等领域发挥着重要的作用。近年来,相关领域的国际竞赛和快速发展的深度学习算法,进一步推动了声场景分类技术的发展。本文综合考虑现有文献中的不足之处和实际工程需求,对声场景分类算法进行了若干改进,通过构建基于改进卷积神经网络的模型融合算法和使用迁移学习算法,对声场景样本进行信息提取和特征学习,实现了声场景分类系统识别准确率的提升。本文的主要工作和创新点如下:(1)阐述了声场景分类任务的研究背景和意义,并对发展历程与研究现状进行了简要的分析。介绍了现存的几种权威数据库及相关竞赛,并从声场景特征及声场景识别算法等层面总结了相关的研究历史及近期竞赛结果。(2)阐述了声场景分类系统的基本框架结构,将系统划分为数据划分模块、预处理模块、特征提取模块、分类模块和测试模块,并进一步分析了各子模块的主要功能。结合实际应用背景,详细讨论了预处理模块中的关键算法:分帧、加窗、预加重;特征提取模块中常用的典型声学特征:短时能量、短时过零率、梅尔倒谱系数与常用的特征组合;分类模块中常用的机器学习和深度学习算法,为后续章节的研究奠定理论基础,并通过试验对比了几种算法模型的效果。(3)将模型融合算法应用于声场景分类任务,并设计了一种改进的双通道卷积神经网络模型作为模型融合的弱分类器。首先,设计了双通道卷积神经网络,在全连接层之前,使用独立的不相关的卷积层分别处理不同的通道特征,将得到的特征图拼接输入至全连接层进行后续处理;其次,使用音频梅尔频谱特征及其差分作为模型输入,并使用两种音频声道分离方式与三种音频切割方式构造了六种不同的特征,相应训练出六个不同模型;进一步,分别使用投票法和以SVM为强分类器的stacking融合方法进行模型融合,得到最终模型。通过在TUT Urban Acoustic Scenes 2018数据集上进行训练和测试,验证了算法的有效性和优越性。(4)针对声场景数据量不足问题,引入了基于参数的迁移学习和基于特征表示的迁移学习两种声场景分类算法。基于参数的迁移学习通过迁移VGGish模型中卷积层的参数,将源数据集Audioset中的知识迁移至目标数据集TUT Urban Acoustic Scenes 2018中。基于特征表示的迁移学习利用深度稀疏自编码器构建特征迁移映射空间,完成TUT Urban Acoustic Scenes 2018数据集与TUT Urban Acoustic Scenes 2018 Mobile数据集特征之间的相互迁移。实验验证了基于参数的迁移学习和基于特征表示的迁移学习的有效性。

其他文献

本钢南芬矿首批卡特彼勒大型矿用卡车顺利交机投产

2009年12月2日,本溪钢铁集团南芬矿扩产项目首批3台卡特彼勒789C大型矿用卡车交机投产仪式在南芬矿现场顺利举行,揭开了全球最大矿用设备制造商卡特彼勒公 December 2, 2009

期刊

卡特彼勒公司矿用卡车投产本钢扩产项目设备制造商钢铁集团钢铁企业

太原市教育局政务大数据平台的新闻分类和推荐方法研究

大数据、云计算和人工智能的快速发展,使得传统的电子政务已难以适应当今的新形势,建设一个融合大数据、数字化和智能化的政务平台已成为当今政府寻求发展的新思路。自2017年

学位

政务大数据朴素贝叶斯文本分类协同过滤推荐算法

新疆北部蛇绿岩型铬铁矿床铬尖晶石的类型及其矿物化学成分

作为蛇绿岩型铬铁矿的重要产区,新疆北部地区发育多处中小型铬铁矿矿床。铬尖晶石一直以来是作为研究地幔橄榄岩成因与铬铁矿形成过程的重要载体之一。本文在对萨尔托海、鲸

期刊

铬尖晶石豆荚状铬铁矿蛇绿岩新疆北部

浅谈“高校+农户”精准扶贫模式——以西藏民族大学帮扶张咀村为例

随着世界经济的发展,贫困问题已成为当今世界最尖锐的社会问题之一。新中国的扶贫历程分为5个阶段,现正处于精准扶贫阶段。西藏民族大学在陕西省咸阳市政府的安排下,对口帮扶

期刊

精准扶贫张咀村高校+农户

基于深度学习的声场景分类方法的研究

与本文相关的学术论文