弱标签声音事件检测的特征表征和标签池化方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:sylsq3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测旨在识别输入音频信号中所包含的目标声音事件并确定事件出现的起止时间。声音事件检测在人们对真实环境的感知和交互方面发挥着重要作用,在智能监控,自动驾驶和医疗保健等领域有着巨大的应用价值。随着深度学习技术的发展,基于深度神经网络的声音事件检测取得了显著的效果提升。数据驱动的深度神经网络依赖大量的训练数据,而现有声音事件检测数据集的规模较小,这制约了深度神经网络在声音事件检测中的发展。声音事件检测使用的强标签需要标注事件类别和起止时间,但是人工标注时间信息容易产生错误,且标注成本很高,这些因素阻碍了大规模声音事件检测数据集的构建。为了缓解训练数据与模型性能之间的矛盾,弱标签声音事件检测研究逐步成为重要的研究方向。弱标签声音事件检测使用的弱标签仅提供声音事件的类别信息,而不提供起止时间信息。弱标签声音事件检测任务一般使用结合卷积循环神经网络的多实例学习法来解决。当前,基于多实例卷积循环神经网络的弱标签声音事件检测仍存在两方面的难点:一方面,真实场景下的音频往往存在多种重叠声音事件同时出现的情况,而音频本身又缺乏声音事件的标注信息,导致模型难以准确提取声音事件特征。再加上不同声音事件的时频特征差异和背景噪声的干扰,这些因素都严重影响模型对声音事件的特征表征。另一方面,在多实例弱标签声音事件检测中,标签池化函数对帧级分类结果的整合性能是提高弱标签声音事件检测效果的关键。然而现有标签池化函数在正确选择事件帧并忽略背景帧方面的能力仍显不足,并且很难保证对于不同特点的声音事件都能提供良好的整合性能。因此,本文重点针对弱标签声音事件的特征表征和标签池化方法这两个难点开展以下研究工作:(1)提出一种弱标签声音事件检测的多尺度空间-通道特征表征方法。该方法首先利用卷积层、上下文门控单元和“挤压-激励”单元构建一种空间-通道注意力结构,以替换卷积循环神经网络中的卷积部分。上下文门控单元筛选特征图上重要的特征区域,“挤压-激励”单元则建立不同特征通道之间的关联。这样该结构就具备对特征图中有用的空间特征与通道特征的选择能力,突出存在声音事件的区域,从而提取到有意义的声音事件特征,增强模型对声音事件的表征能力。考虑到音频中不同声音事件的时频特征差异较大,该方法在上下文门控单元的基础上进一步设计了多尺度上下文门控单元,形成多尺度门控空间-通道注意力结构。多尺度上下文门控单元在不同分辨率模式下提取特征图中重要的空间特征并进行融合,避免部分声音事件的特征信息丢失。因此多尺度门控空间-通道注意力结构可以捕获声音事件的多尺度信息,有效加强模型对不同声音事件的区分度。(2)提出一种弱标签声音事件检测的自注意标签池化方法。该方法可以构建音频中声音事件特征的内部相关性,进一步突出存在声音事件的音频帧。该方法先利用自注意思想构建查询矩阵、键矩阵和值矩阵,并使用多层感知机替换原有的缩放点积的计算方式,使自注意计算更符合弱标签声音事件检测的特点。最后通过自注意计算得到每帧的权重值,实现帧级分类结果的整合。自注意标签池化函数将音频特征作为输入建立各音频帧之间的关联,加强存在声音事件的音频帧之间的相关性,同时增大背景帧与事件帧之间的不相关度,从而在标签池化阶段进一步突出事件帧。此外,本文还从反向传播过程中梯度变化角度出发,进一步分析自注意标签池化函数的特点及与其他标签池化函数的差异。本文在DCASE 2018任务4和DCASE 2017任务4两种数据集上开展一系列弱标签声音事件检测实验,并与当前取得最佳结果的其他方法进行对比。实验结果表明,本文所提方法均能显著提升弱标签声音事件检测的检测效果,且优于当前大部分的弱标签声音事件检测方法。
其他文献
从2010年开始,中概股企业被做空现象屡屡出现,其中还包括了一些在中国本土发展状况良好的公司,一些做空机构比如:浑水公司、香橼研究、匿名人士在做空中频频得手,使得中概股企业损失惨重,中概股的信任危机极大程度影响了中国企业的形象。近期随着瑞幸咖啡被做空后,自曝造假,新一轮的中概股危机已然开始,这其中映射出来的一方面是国内企业内部公司治理的问题,一方面也是由于大量企业缺乏应对做空事件的措施所导致的。本
随着互联网技术在生活中的广泛应用,学术论文载体也在不断增加,学者每天面对的论文数量出现了爆发式增长,有限的时间导致研究者不能对每篇论文进行研读,因此如何利用主题发现技术对论文进行准确主题提取是亟待解决的问题。当前话题发现领域常用算法为LDA模型,但是LDA模型存在没有利用语义信息、主题表征词含义不清和主题提取数目偏大等诸多问题,但是其他学术主题发现方法比如社交网络方法复杂耗时较多,因此本文结合学术
光电催化分解水是将太阳能转换成绿色无污染的氢能的过程,包括了光阳极的水氧化和光阴极的水还原的两个半反应。水氧化反应过程涉及到连续的四个电荷转移,需要比较高的反应活化能,因此研究高性能的半导体光阳极材料对于提高水分解效率是非常有意义。目前光阳极半导体中普遍存在载流子迁移率较低导致电子空穴对的复合问题,这将降低水分解的效率。近年来,纳米尺度铁电材料的出现为解决这一问题提供了新的思路。已有研究表明,铁电
电解加工(Electrochemical machining,ECM)是根据不同金属间电子转移,使金属元素化合价改变,从而使阳极表面材料发生电化学反应,以达到去除表面材料的一种工艺方法。加工时,阴阳极之间存在加工间隙,阳极是通过离子溶解的形式而被蚀除,因此不存在应力和变形、以及无冷作硬化层等优点。本文应用COMSOL Multiphysics软件,对冷却孔电解加工间隙内流场、电场及稀物质传递场等进
过渡金属催化不饱和分子活化是一种高效并且原子经济的合成方法,由于其在合成天然产物、药物、具有生物活性骨架的化合物等领域具有非常重要的作用,一直以来受到有机化学家们的广泛研究。铑催化剂因其具有反应活性高、底物适用范围广、选择性好以及官能团兼容性好等优点常被用于不饱和分子的活化。不饱和分子种类繁多,并且其高效高选择性的官能化反应仍是有机合成化学中的研究重点。通常要实现不饱和分子的活化或者官能化需要进行
随着对新能源电动汽车、小家电和便携式电子设备的需求增大,社会对快速转换和储存电化学能量的可充电电池的要求也越来越高。锂硫电池是以锂金属为负极,硫为正极的新型二次电池,在未来有望替代已触及其能量密度天花板的锂离子电池成为下一代能源存储系统。与基于锂离子嵌入/脱嵌原理的锂离子电池不同,锂硫电池在充放电过程中会经历多个反应中间体,其中长链多硫化锂(Lithium Polysulfides,Li PSs,
超材料,具有奇异材料特性的人造复合结构,在进入21世纪以来,已经成为涉及物理学,材料科学,工程学和化学的科学新领域。基于叠层金属-介质层-金属(Metal-Insulator-Metal)的MIM超材料吸收器作为一种典型的超材料表现形式,由于其具有体积小、结构灵活、制备简单、灵敏度高和无标记等优点,不仅被应用于光源及探测器的研究,而且在气体、化学、生物物质的传感检测中也展示出了极高的应用价值。本论
近年来,随着各国二氧化碳大量排放,温室气体猛增,对生态系统形成了一定的威胁,因此各国越来越重视环境保护。在2021年两会中,“碳中和”和“碳达峰”首次被写入政府工作报告,证明我国下定决心要解决碳排放中存在问题。传统的硅酸盐水泥混凝土行业具有高排放和高能耗的特点,在节能减排的进程中面临了巨大的挑战,因此探索研究低碳的新型胶凝材料成为了众多解决方式之一。基于此,本文主要探究以碳酸钙与铝酸盐矿物为主要原
葡萄糖是维持哺乳动物生命活动的基本营养物质之一,持续浓度高出正常水平的葡萄糖将会导致糖尿病。这是一种常见的慢性疾病,严重危害了人类健康,因此对于人体内葡萄糖浓度的定量检测具有十分重要的意义。而目前大多数市售葡萄糖检测仪是基于酶的传感器,但酶传感器具有繁琐的酶固定过程、价格昂贵、保质期短等缺点,所以越来越多的非酶葡萄糖传感器被开发应用。本论文利用过渡金属的高催化性能结合碳材料的导电性和高比表面积,制
随着信息时代的到来,工业技术迅速发展,电子产品的种类和数量急速增加,相关电子信息设备产生的电磁波充斥在人们日常生活的每个角落。空间中可监测到的电磁能量也在以每年7%以上的速率迅速增长。过量的电磁辐射会给人们正常的生产生活带来不利影响。电磁屏蔽则是解决过量的电磁辐射的有效手段,发展和研究出新的高性能电磁屏蔽材料已成为各国的研究重点。镁合金是现今继钢铁和铝合金之后应用广泛的第三大金属材料,具有较轻的重