基于深度学习的环境音频多标签分类方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yilong_hongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,环境声音识别的分类问题逐渐成为了声音识别领域的一个研究热点,这也是一个在实际生活中应用非常广泛的问题。但是大多数的分类学习方法都是单标签的,即每个对象只具有一个标签,对于复杂而多义的现实世界来说并不适用,因此多标签分类问题是一个更接近真实世界且具有研究价值的热点问题。目前,音频多标签分类任务使用的方法可分为四大类:问题转换法、算法适用法、集成法和深度学习的方法。本研究提出了一种基于深度学习技术对带有噪声的环境音频多标签分类的方法,该方法同样满足单标签数据集的分类,具有通用性。首先将数据集中的噪声音频与干净音频区分开来。使用RNNoise降噪算法用事先训练好的降噪模型对数据集中的所有噪声音频降噪,从而得到干净的音频文件。然后使用VGGish模型提取更多且更完整的音频特征,把得到的特征向量作为神经网络模型的输入。接着分别使用Res Net34网络和Env Net-v2网络进行模型训练,需要注意的是,上一步中得到的特征向量并不能作用于Env Net-v2网络,因为该网络是直接基于降噪后的音频波形文件的。当模型进行训练时,关注各项指标的训练值,及时调整参数,获得最佳模型。最后定义评价指标并计算平均精度,加载训练好的准确度较高的模型对测试数据集进行标签预测,并将预测得到的概率结果输出。与传统的音频多标签分类方法相比,本研究首次在数据预处理模块增加独立的降噪算法,并且考虑到环境音频与语音的不同,采用VGGish模型提取更加完整的特征信息。通过大量的实验,本研究得到了对音频多标签分类领域具有研究价值的结论:以音频特征作为模型输入的分类器,在训练时采用半监督学习方法能够得到更佳的实验效果;以音频波形文件作为模型输入的分类器,在数据预处理模块增加降噪算法能使标签预测准确率明显提升。本研究分别在一个多标签数据集和一个单标签数据集上进行了实验验证。在多标签数据集上,使用半监督学习方法训练模型达到了40.17%的准确率,以音频波形文件为输入的模型达到了40.48%的准确率。与基准方法相比,本研究均取得了更佳的实验效果。在单标签数据集上,使用半监督学习方法训练模型达到了71.91%的准确率,以音频波形文件为输入的模型达到了68.64%的准确率。最后通过分析实验结果,找出目前工作具有的优势以及存在的不足,给出未来更深入研究的改进方向。
其他文献
声子晶体的出现为人为地操控弹性介质及结构中弹性波的传播提供了崭新的道路。其中,由声子晶体发展而来的声子拓扑绝缘体,由于其展现出的超常波动特性,受到了研究人员的广泛关注。研究人员在声子拓扑绝缘体中实现了拓扑边缘态、拓扑表面态以及高阶拓扑角态等众多不同维度的拓扑态。另一方面,随着对拓扑缺陷研究的深入,研究人员将拓扑缺陷引入光子晶体中,通过拓扑缺陷相继实现了一系列拓扑态,如拓扑界面态、拓扑局域态等,为拓
随着新能源发电单元的增多,脉宽调制技术的使用越来越广泛,但也因此给并网系统引入了大量的开关频率谐波,导致并网电能质量面临着严峻的挑战。当电网电压存在直流干扰时,传统SOGI-PLL锁相环的性能会严重降低。此外,我国很多新能源发电单元的位置一般较为偏远,较长的传输线路以及大量变压环节导致并网逆变器运行于弱电网状况。并网逆变器与弱电网产生阻抗交互现象,可能会使并网系统出现振荡问题,影响并网系统的安全运
车间调度在智能生产制造系统中扮演着重要角色,是现代制造业生产系统中的核心技术,合理高效的运用调度策略可以显著的提升企业生产制造效率。在实际工程应用中,分布式生产模式可以大幅度降低生产成本或缩短工期,提高了生产事故的风险抵抗力,其研究具有重要的学术意义。分布式混合流水车间调度问题(Distributed Hybrid Flow Shop Scheduling Problem,DHFSSP)是在混合流
金融是现代经济的核心内容,除了根据市场运行规律将社会中的资金分流到各个行业,同时还能合理配置现有的稀缺资源。随着经济社会的不断发展,金融产品不断增多,金融服务持续增强,将宏观的金融发展和微观的实体企业的投融资行为结合起来进行研究越来越成为经济学家们研究的热点问题,自2012年以来的全国金融工作会议都将金融服务实体经济作为重要议题加以讨论,金融发展对企业投资效率的影响是衡量金融服务实体经济能力的一个
本研究针对湖南省不同品种的籼稻米的营养品质特性,开展了糙米粒型、糙米粒横断面元素分布及含量、精米化学成分组成与成分、氨基酸含量及鲜切米粉加工适用性等的研究。我国稻米长期处于加工率低,加工水平低的状况,稻米的资源尚未得到深层次的开发与利用。种植面积广、种植资源丰富,导致稻米品质差异性大,且缺乏系统全面的分析与评价,使得米制品加工时原料米的选择缺乏基础数据的参考与比较,生产出的米制品品质不稳定,难以实
全世界各地每年因为交通事故死亡的人数众多,大量交通事故的产生,除了会造成巨量的经济损失,更会造成大量的人员伤亡,给许多家庭带来极大的精神伤害与其他不可挽回的损失,严重影响人类经济社会发展与社会进步,严重影响人民群众的安全感和幸福感。因此,提高汽车的强度与安全性尤为关键。本文以某乘用车为研究对象,建立了根据GB26134-2010《乘用车顶部抗压强度》及C-NCAP管理规则《(2018年版)》法规要
高铁接触网作为一种无备用的输电线路,其作用是向电力机车提供稳定电能,重要性不言而喻。在列车长期运行的受力震动和环境腐蚀等作用下,顶紧螺栓作为高铁接触网斜撑套筒的紧固件会出现松动和脱落的情况,能及时的检测出其缺陷状态对维护高铁接触网的安全有着重大意义。目前,越来越多的研究者将计算机视觉与缺陷检测相结合,从而完成了高铁接触网中部分零部件的缺陷检测。然而,像顶紧螺栓这样的微小紧固件的缺陷检测,其目标小,
作为新型服务创新创业平台的众创空间,近年在全国各地蓬勃发展,经历了起步发展到行业洗牌,一部分众创空间转型升级,探索出专业化、特色化的运营模式,一部分众创空间没有准确的市场切入点,破产倒闭。DJK众创空间于2017年建立,不断发展完善的同时,也逐步显露出一些运营模式上的问题。本文以DJK众创空间为研究对象,在理论分析的基础上,通过资料收集、问卷调查、实地访谈等方式,系统分析了DJK众创空间的现状、运
电动汽车的出现加速汽车行业可持续再生方向的转型,动力电池作为电动汽车的心脏在发挥巨大功效的同时又隐藏着不小的风险。动力电池的安全防护措施得到了越来越高的重视,汽车电池箱在作为电池承载部件的同时起到了关键的保护作用,因此对于汽车电池箱的安全性研究有重要的意义。本文以某款电动客车电池箱为研究对象,进行了以下几个方面的研究工作:(1)电池箱体的结构设计。按照汽车电池的续航要求,确定电池的成组方式。根据客
改革开放以来,我国农村金融体系不断完善,但与农业农村经济发展的融资需求相比,农村金融的发展仍然较为滞后,农户融资难的问题依然凸显。2019年中央一号文件中提出,要打通金融服务“三农”的各个环节,这体现了在乡村振兴背景下,金融服务在解决“三农”问题中的重要性。农户是农村金融的重要主体,在城镇化进程加速发展的今天,农户的生计资本和收入水平都发生了不同程度的分化,这使得农户的借贷行为以及相关经济行为发生