基于深度学习的音频事件分类研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lyfqxx3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频事件分类是目前音频研究的热点问题,其应用场景十分广泛。在该研究中,存在着一些难点问题还没有被很好的解决,如音频事件的多样性和随机性问题。本研究的出发点就是根据这些音频的特性,结合目前热门的深度学习方法,对音频事件分类模型进行设计,并通过实验验证提出的理论猜想。论文的主要工作包括以下两个方面:1.研究了基于深度学习的音频分类算法。针对人耳对音频事件在高频和低频的分辨程度不同的问题,利用小波变换方法具有多分辨率的依据,采用了小波变换的方法对音频特征进行提取,设计了连续小波变换CWT和离散小波变换DWT两种方式的音频特征提取方法。研究了将残差网络和LSTM网络结合的音频分类网络,改进并设计了残差网络结合BiLSTM的网络结构。针对音频事件在时域频域具有多样性的问题,利用卷积核多尺度思想的依据,结合Inception的多尺度卷积核结构,研究设计了基于音频事件分类的多尺度网络结构MseCNN。其中连续小波变换特征CWT-9和MseCNN网络组成的模型,在两个数据集Urbansound和ESC-10上的overall的准确率分别达到了 84.3%和93.1%。2.研究了基于注意力机制的音频分类方法。考虑到音频事件在时频空间上分布的多样性,依据人耳在感知声音时的注意力机制效应,研究了基于注意力机制的音频分类方法。从三个角度对音频分类问题上的注意力机制进行了构想和实验设计。针对音频事件在时间域分布的随机性问题,设计了时间注意力方法,突出时间上关键帧的信息。针对音频事件在时频空间分布的多样性,设计时频空间注意力方法,将时间频域空间上的关键信息突出。针对多通道网络在提取音频特征时,特征分量的多样性,设计了通道注意力方法,突出重要的特征分量,提高特征在高层空间的区分度。实验在基线网络上做了三组对比试验,在网络不同位置加入注意力模块,对之前的设想进行了分析和验证。并进行了三种注意力的组合实验,最后将最好的注意力结构结合第三章的网络模型,其中空间域和通道域的注意力组合实验在Urbansound和ESC-10数据集上的准确率为85.7%和 94.9%。
其他文献
在经济下行压力持续加大和转型发展需求迫切的背景下,煤炭资源型区域在转型发展过程中面临着巨大压力。实现经济发展从要素驱动、投资驱动向创新驱动转化,提升煤炭资源型区域创新能力,是解决当下这一难题的关键。为此国家出台了《国家创新驱动发展纲要》、《全国资源型城市可持续发展规划(2013-2020)》、《中共中央国务院关于深化体制机制改革加快实施创新驱动发展战略的若干意见》、《国务院办公厅关于推广支持创新相
随着物质生活水平的提高,人们的寿命整体上延长,与病魔做斗争也随之增多。据相关统计,一个人一生当中可能患癌的概率大概是60%~70%,在老年时期的患病率更大。中国每年的癌症发
当前,全国正在积极推进司法体制改革,司法体制改革下的法院改革、法官员额制改革、司法人员改革以及司法辅助人员人事改革等正在全面组织实施,法官助理制度改革也是司法体制
2012年以来我国城市轨道交通建设步入新纪元,修建地铁的城市数量激增,地铁的建设规模快速增长。然而在地铁建设过程中安全事故频发,地铁建设安全引起社会各界的极大的重视。地铁车站是整个地铁系统中的最复杂的节点,车站是地铁建设中的关键环节。其中基坑工程是车站建设的重点,基坑施工具有工期长、作业环境差、受外界环境影响大等特点。地铁车站基坑施工事故频发,事故后果严重,常会对社会造成较大的损失。因此,在地铁车
现代社会中,考试作为评估个人能力的重要手段在社会人才选拔的过程中起着至关重要的作用。为了保证考试权威性和公平性,传统的监考需要大量的人力资源和物力资源培训监考人员
双基地声纳由于收发设备分置,相较于单基地声纳具有独特的优点,近年来成为先进声纳技术的研究热点。双基地声纳研究主要集中在定位精度分析,基站配置等方面。卡西尼卵形函数
在中国经济快速发展的进程中,体育消费已经逐渐成为人们不可缺少的重要消费形式之一。随着体育消费市场需求的不断扩大,催生出体育产业的形成与发展,因而对满足国民需求、拉动经济增长的作用突出。随着2022年中国冬奥会的成功申办以及2021年内蒙古举办全国第十四届冬季运动会,内蒙古凉城休闲特色小镇抓住这两大经济发展机遇,积极推动滑雪体育产业对区域经济的促进。本文以内蒙古凉城岱海依靠得天独厚的冰雪资源优势,以
目前,现实视觉环境下的亮度对比远超出成像传感器和普通数字显示设备动态范围的极限,对于视觉成像系统中采集的可用于显示的灰度图像,无法呈现出较高动态范围的亮度对比所要求的可视化效果;同时,受到现有硬件发展水平的制约,普通CCD/CMOS传感器采集到的图像无法真实的记录人眼观察到的自然场景信息,对于具有高反光特性的目标表面往往存在全局或局部过曝光现象。因此,如何利用普通数字显示设备捕获、合成、显示具有高
纳米纤维素作为包装材料的填充成分,可以提高材料的力学性能和阻隔性能,并可改善复合材料的热学性能及降解性能。本文简要介绍了纤维素及纳米纤维素,重点阐述了纳米纤维素的制备
背景:目前有许多研究认为维生素D受体(Vitamin D Receptor,VDR)基因多态性可能与孤独症谱系障碍(Autism Spectrum Disorder,ASD)有关,但也有研究发现并无显著关系。因此,VDR