声音场景分类的卷积神经网络感受野自适应方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dannananjing31306111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音场景分类致力于解析给定的音频片段,自动为该片段赋予一个预定义的场景类别。作为计算机听觉的子任务,声音场景分类在安防监控、智能穿戴设备、智能家居等众多应用内拥有着巨大的发展潜力。由于其强大的特征表征及模式分类能力,卷积神经网络频繁出现在图像、音频等各大信号处理类任务。本文着力于研究基于卷积神经网络的声音场景分类方法。已有研究表明,卷积神经网络感受野的调整对利用网络进行特征建模有至关重要的作用。虽然目前已有许多感受野调整方法,但是直接应用在声音场景分类上仍存在许多不足。具体表现在:1)现有的感受野调整方法缺乏对时频特征物理意义不同的考虑,限制了卷积神经网络对Log-Mel等时频谱图的特征表征能力;2)当前的感受野调整方法一般只考虑卷积层的调整,但是池化层也直接影响着卷积神经网络的感受野,所以调整池化层的感受野同样重要。针对上述问题,本文的主要工作及创新主要体现在:1)提出卷积神经网络对偶选择感受野自适应方法(Dual Selection Receptive Field Adaptation,DSRFA)。DSRFA使用一个多分支对偶卷积选择单元替换掉传统卷积神经网络中的卷积层,令卷积神经网络具备自主选择最优感受野的能力。多分支对偶卷积选择单元利用不同尺寸的卷积核得到不同感受野的特征输出,并通过级联两个9)×1和1×9)的对偶模块,增加单元中的备选感受野。DSRFA可分别对Log-Mel谱图的时间维度和频率维度进行特征学习,并利用自适应选择方法同时选择出两个维度上的最优感受野,解决了Log-Mel谱图中两个维度物理意义不一致导致的最优感受野不同的问题。2)提出卷积神经网络特征驱动感受野自适应方法(Feature-driven Receptive Field Adaptation,FDRFA)。FDRFA利用一个时频级联单元替换掉传统卷积神经网络中的池化层,令卷积神经网络的池化层具备感受野自适应的能力。FDRFA将卷积神经网络在Log-Mel声谱图中的传统池化操作分解为频率维度池化和时间维度池化的级联。在频率维度上,FDRFA通过减小中低频区的池化感受野来保留重要的分类特征,同时增大高频区的池化感受野以加快高频冗余特征的过滤。在时间维度上,FDRFA在传统的池化边界上增加了一组可学习的偏移量,该偏移量通过卷积计算获得,并经网络多次迭代更新,指导池化窗口自由的伸缩变换。FDRFA在时间维度上可根据输入特征的动态分布,令不同的池化窗口具备不同的感受野并可相互交叉重叠,这样的变化可适应场景音频中,不同声音事件长短不一且存在交叉重叠的现象。在DCASE 2019任务一的数据集上开展的一系列验证实验表明,本文提出的卷积神经网络感受野自适应方法可以令网络以更灵活的感受野进行特征学习,进而显著的提升网络对场景音频的特征表征能力。与当前最优的声音场景分类单模型相比,本文的方法可以达到最高的分类精度。
其他文献
纳米银材料具有良好的导电性能和抗菌性能,在各个领域展现出极为广阔的应用前景。纳米银颗粒的广泛使用,使大量纳米银颗粒随着污水进入到城市污水处理厂,对污水处理系统中的功能微生物产生生理毒性,进而影响生物除磷脱氮效率。好氧反硝化菌在好氧条件下进行反硝化作用,使得硝化反应和反硝化反应可以在同一反应器中进行,从而可以降低设备投入和操作管理成本。好氧反硝化已成为近年来生物脱氮领域的研究热点。研究好氧反硝化菌对
学位
报纸
棒束通道为核反应堆堆芯燃料组件的常见结构,其开式的通道单元(子通道)间存在横向的质量、动量及能量交换,棒束通道间横流及湍流交混效应是这些交换的关键机制,而反应堆棒束通道中的定位格架则对这些交换起到显著的强化作用。通常认为,不管是否存在格架,横流及湍流交混效应均为构建棒束通道子通道分析方法的基础要素,现有相关研究指出对于横流及湍流交混效应的研究有助于提高反应堆堆芯的临界热流密度(CHF)。鉴于此,本
学位
城市轨道交通具有站间距离短、行车密度高等特点,列车在运营过程中会频繁地启动和制动,产生可观的制动能量。本文针对制动能量的再生利用效率提升问题,提出了一种基于超级电容储能装置和全线规划布置的超级电容地面储能系统,对其系统节能能力、牵引网稳压能力进行研究。首先,针对超级电容储能装置从单体级、模组级到系统级进行了设计;接着,以实际线路为例,从变电所输出功率、直流侧电压以及系统运营总能耗3个方面在MATL
期刊
目的:观察静宁颗粒对注意缺陷多动障碍(ADHD)模型大鼠生长状态和行为学的影响。方法:将50只雄性4周龄自发性高血压大鼠(SHR)随机分为模型组、静高组、静中组、静低组及哌甲酯组,每组10只。同时将10只同龄Wistar大鼠设为正常组。哌甲酯组给予盐酸哌甲酯混悬液1.5 mg/kg灌胃,静高、中、低组分别给予静宁颗粒混悬液23.14、11.57、5.785 g/kg灌胃,模型组和正常组给予等量0.
期刊
2016年习近平总书记将中国新型政商关系扼要归纳为“亲”“清”政商关系,党的十九大报告提出要构建“亲”“清”新型政商关系,明确规范政企关系已然成为发展需要。政府作为国家治理体系中最重要的部分之一,其职能发挥直接影响着市场经济能否正常运行,特别是在我国特殊的政治经济环境中,政府干预行为存在于各个领域。社会层面的资源是有限的,企业生存发展对资源具有高度依赖性,受竞争压力和自我实力提升的需要,企业通过寻
学位
党的十九大报告提出要"深化农村集体产权制度改革,保障农民财产权益,壮大集体经济"。同时,其首次提出了"实施乡村振兴战略"。推进农村集体产权制度改革是乡村振兴战略有效实施的制度基础,产业发展、农民增收、乡村治理等都需以农村产权制度改革为前提。推进农村土地和财政管理制度的改革,明晰土地和财政管理的归属,盘活农村土地和财政资源,壮大集体经济,能为新型乡村振兴破除体制机构障碍。
期刊
<正>新一轮课改对我国基础教育的改革与发展带来了深远影响,然而我们发现小学语文课堂依旧存在诸多困境:教学目标随意而零碎;课堂满堂问、满堂答,看似热闹,实则学生主体地位严重缺失;教学设计重过程轻评价,教、学、评的不一致导致教学信马由缰,效率低下。针对以上问题,我们革新教育理念,聚焦学科素养,重构课堂生态,打造"素养课堂"。
期刊
为解决超级电容能量密度小、在运行过程中荷电状态(state of charge, SOC)容易越限的问题,对传统低通滤波法进行改进,提出考虑超级电容SOC的功率分配策略。该方法依据超级电容的SOC划分5个不同的工作区域,并以超级电容的SOC作为变量,在不同工作区域同滤波时间常数建立相应的函数关系,之后根据SOC的变化动态调整滤波时间常数,实现蓄电池和超级电容之间功率的合理分配,保证超级电容SOC维
期刊
近些年来,伴随着电动汽车的飞速发展,消费者们对于高能量密度锂离子电池的需求日渐增长,而石墨作为传统的商用负极材料存在理论容量低、倍率性能不佳等缺陷,已经无法适应大功率充放电和长时间续航的使用场景。因此,亟需开发新型的高性能负极材料来弥补商业石墨的不足。硅凭借着丰富的自然储量和超高的理论比容量被人们认为是最有望得到大规模应用的下一代锂离子电池负极材料。但是由于硅的导电性差、首次库伦效率低、在使用过程
学位