噪声标签数据集上的弱监督声音事件识别方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ZHENGDAN0226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器听觉指的是机器通过分析声音信号获取信息的能力。随着智能化时代的到来,机器听觉受到日益广泛的关注。其中一个重要的任务是声音事件识别(Sound Event Recognition,SER)任务。声音事件识别指通过分析音频信号,判断其中的发生的物理事件信息。目前主流的声音事件识别方法是基于深度学习的,但在数据方面存在两个问题:第一,深度学习依赖有标注数据,而声音事件的标注成本很高,难以获得足量有标注数据,限制了深度学习模型的性能;第二,稀缺声音事件类型的数据难以获取。在上述情况中,数据集在训练过程中无法提供足够监督,对于这种情况就需要弱监督学习方法来应对。针对上述问题,本文选定两个声音事件识别任务的子任务,即声音事件识别任务和机器异常声音检测任务,研究了其面临的弱监督场景以及应对方法。在声音事件识别任务中,本文首先对模型结构进行优化,在卷积循环神经网络的基础上引入了残差连接通路。随后分析了多尺度特征融合的重要性,提出多分辨率特征生成层用于生成多分辨率特征,以及密集连接循环神经网络结构来融合不同抽象程度的特征。同时基于均值教师模型利用数据集中的无标注、弱标注数据,使模型学习到更好的特征表示。最终结合上述方法,本文提出的相对于基线系统的取得了13.4%的性能提升。在机器异常声音检测任务中,本文首先选用了机器类型识别和机器编号识别两个分类任务作为辅助任务,设计了基于分类置信度的异常声音检测模型,并利用Mix-up算法实现对特征空间的平滑。随后本文提出了未知样本分类任务,设计了四种生成未知样本的数据增强方法,借助数据增强方法将合成样本标注为未知类别,并添加入模型训练中。最后,本文模拟了实际环境中异常声音检测系统面临的设备间频响差异,验证了本文提出方法在存在设备间频响差异情况下的有效性。最终相对于基线系统,本文提出的方法取得了12.8%的相对性能提升,并在具有设备间频响差异的情况下取得了25.8%的性能提升。
其他文献
时间反演技术因具有良好的时空聚焦特性,目前已成为目标定位、目标成像、无线通信等领域的研究热点之一。该技术在解决电磁波传播过程中的逆问题与实现激励源的源重构应用中具有巨大的研究价值。本文围绕时间反演技术的时空聚焦特性,探索了一系列新型算法和改进算法,并将其应用在基于源重构的相控阵失效阵元诊断和电磁干扰源定位中,获得了良好的应用效果。具体研究内容分为以下四个部分:首先,本文基于数字信号处理方法对时间反
等离子体诊断,是研究高速飞行器返回地球时产生的黑障现象的一个重要研究方向。黑障现象产生的等离子体鞘套干扰实时通信,给各类飞行任务造成安全隐患和财产损失。因而,研究等离子体鞘套的电磁特性对解决黑障问题具有重大意义。利用大型激波管进行等离子体诊断是常用的一种方式,而用微波进行等离子体诊断是应用广泛的一种方法。本文主要研究了利用微波透射法诊断等离子体的电子密度和碰撞频率等参量,内容分为以下几个方面:第一
无线通信技术迅猛发展,衍生出多样的业务场景。但由于无线信道的开放特性,通信过程容易受到非法方窃听和欺骗的攻击。传统的认证与加密方案通常建立在网络协议栈的高层,面对日益增长的量子计算能力以及大规模机器连接等新兴业务场景,传统的安全机制面临挑战。基于此,本文针对无线信道天然的随机性与独特性研究了轻量级高可靠的物理层身份认证与密钥生成技术,作为传统安全方案的补充,主要工作包括:论文在单跳网络下研究了三种
近年来随着中国城市化水平的提高,高层建筑的数量也逐日攀升,随之而来的是高层建筑的安全检测以及消防安全问题,如何在火灾现场应对建筑垮塌并确保人身安全,成为了消防从业人员的巨大挑战。现阶段的建筑形变监测手段需要消耗大量人力、物力和时间成本,难以在火灾等恶劣环境中实现可靠的全方位实时建筑健康监测和预警。因此,消防从业人员急需一种工作于恶劣环境下的可靠在线建筑形变监测系统,确保消防抢险人员的人身安全并降低
随着高分辨率雷达的广泛应用,传统的目标检测算法对海面微弱目标的检测存在明显的性能瓶颈。海面上的慢速小目标回波微弱,雷达散射面积太小使得信杂比非常低,传统自适应检测算法很难奏效;复杂的空时变海杂波环境中,高分辨率观测不能满足传统大尺度下的统计特性,很难建立准确的目标模型;在对海观测获取到的大量数据中,目标和杂波的类别非平衡,目标相对海杂波的稀疏性使得海杂波的检测问题在传统的机器学习和模式识别上面临着
随着物联网技术的兴起,人类社会已经进入到一个万物互联的时代,而物联网核心技术则是诸如RFID、UWB等;这些技术同时也深入到了各行各业例如:自动驾驶、智慧货仓、智慧交通、VR体感游戏、导航等;而提供这些服务的前提,就是获取物体准确的位置信息。本文针对上述需求,分析了开源数据集的误差统计特性;其次,指出了经典定位算法模型的不足和局限,提出了一种鲁棒TDOA静态定位算法并讨论了最优基站定位问题和通信距
碳纳米管(cnt)凭借其量子电容特性、高迁移率、截止频率在THz以上的潜能、弹道传输特性,被认为是制造RF晶体管的理想半导体材料,到目前为止,世界各国都致力于高性能cnt FET的研究,然而除了关注于cnt FET本身的直流特性、截止频率、振荡频率外,基于cnt的RF电路芯片验证也是至关重要的,这可以表明其可以代替传统半导体来设计集成电路。本文着重研究了放大器的集成电路,主要的研究方法与成果如下:
随着互联网技术的普及和不断革新,Wi-Fi网络和智能移动终端在人类日常活动中所扮演的角色也越来越重要,同时由于人类的活动大部分都在室内环境下进行,所以人们对基于室内环境的位置服务的需求也不断增大。在室外定位中占据主导地位的卫星导航系统,其信号在穿透建筑的钢筋混凝土墙壁后衰减十分严重,精度也随之衰退到5m至20m,显然这样的定位效果无法满足空间较小的室内环境,因此许多室内定位技术应时而生,而Wi-F
随着量子信息技术的发展,人们逐渐认识到单一量子载体在许多应用场景具有局限性,因此出现了由不同量子载体构成的混合量子系统。以金刚石NV色心为例:NV色心具有很多优点,比如电子自旋态易于读出和操控,室温下相干时间长等,是最受欢迎的固态量子体系之一,在量子计算、精密测量、量子网络等领域具有重要的应用前景;然而,NV色心在原位电学调控方面遇到了挑战,在多比特扩展(即实现芯片上不同色心之间的耦合)方面遇到了
精神分裂症是一种严重的精神疾病,其连接障碍假说提出该疾病与神经元的异常连接有关。静息态功能磁共振成像显示,基于血氧水平依赖信号的自发神经活动在脑区之间相互关联,并组织成空间分离的功能网络,而这些功能网络之间信息交流的异常与精神分裂症中已知的认知功能受损有关。因此,基于磁共振成像的脑网络功能连接分析有潜力揭示精神分裂症的发病机理与指导早期诊断和预防疾病。然而,传统脑网络分析技术仍有亟待解决的科学问题