融合声场分解的声音场景分类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:prcjzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
让机器在接收到外部世界的各种声音后能判断自身所处的空间,这种技术便是声音场景分类。近年来,受益于算力和算法两方面的突破性进展,声音场景分类相关研究也进入了快速进步的时期,在技术迭代的同时也有越来越多新的问题被发现。其中一个问题就是立体声数据源的处理问题。声音场景领域目前最大的数据集已经是立体声格式,而与声音场景数据集向立体声格式越发明显的过渡趋势相对,当前的主流声音场景分类方法即使在使用立体声数据源时,还保留着单通道处理的思维方式,并没有对立体声所携带的额外空间信息进行特别的关注提取。本文的第一个工作是针对立体声数据源提取额外的空间信息。通过名为源环境提取的声场分解算法,使用立体声中包含的相位信息将立体声音频进一步分解为4个通道,从而获得更多的空间信息。分离出4个通道的音频虽然继续沿用了会损失相位信息的梅尔能量谱声学特征,但是相位信息在损失之前就被增加通道的幅度信息分摊了。在此基础上在分别使用了多种声音场景分类的优势方法,搭建出多个VGGNet模型并用集成学习来获得更高的性能。在多次实验并向不同数据分布迁移后,使用了声场分解的系统相比未使用的都有一个稳定的性能提升。其中最好的一组设置相比同数据集下的基线系统在识别正确率上提升了17.3%,并在全球性赛事DCASE2019声音场景分类任务中取得第四的队伍排名,比未使用声场分解的情况提升了两个位次。在第一项工作的基础上本文又进行了声音场景分类的应用层面探索。将原有功能冗余的十分类数据集合并为三分类后,进行了低复杂度迁移。首先将声场分解算法优化,使计算速度相比最初的实现提升了接近10倍,同时将声场分解从特征生成改为数据增强以减小特征的复杂度。在此基础上又将模型的参数规模压缩至不及原来的1%,通过1×1残差模块堆叠提供的细腻感受野分辨率搭建出了一个大小与基线系统相似,错误率不到基线三分之一的低复杂度立体声声音场景分类系统。最后进一步使用了多种模型压缩方法,验证了声场分解数据增强方法在模型被再次压缩的情况下也依然适用。
其他文献
人体目标解析旨在获取图像中人体目标的精细化属性描述信息,包括年龄、性别、穿着服饰、携带物等能够验证人体目标身份的重要特征依据。人体目标解析工作不仅能够广泛应用于安防体系中,在海量图像视频数据中高效提取有效信息,进行身份验证和检索搜查工作,并且对于行人重识别等众多其他领域也有着重要促进作用。自然场景下的人体属性解析任务中,人体目标检测框的定位不准确性可能会对后续属性识别产生背景干扰或主要特征信息丢失
在平板显示领域中,薄膜晶体管(Thin Film Transistor,TFT)作为像素的基本单元起着非常重要的作用。其中,氧化物基TFT因为其具有高迁移率、良好的透明度、优异的均匀性和较低的加工温度而逐渐取代了传统的非晶和多晶硅TFT,成为最有发展前途的候选材料之一。尽管n型氧化物TFT具有较高的器件性能并已用于商业显示领域,但是具有相匹配性能的p型氧化物TFT却很少报道。由于缺乏高性能的p型氧
高能粒子束在清除空间碎片、可控核聚变、粒子束武器和粒子推进器等领域都有突出的应用潜力。尤其在清除空间碎片上,基于粒子束的非接触式清除技术是近年来的研究热点。而传统的基于离子束清除空间碎片的方法目前还有许多难点和问题需要解决,主要难点在于离子束受地磁场影响较大,由于地磁场干扰给离子束流的射程与精度带了很大的影响,而中性束不受磁场影响,并且不会因为电荷间作用力造成发散,相对离子束射流清除空间碎片的方法
压电材料AlN由于其优异的压电性能和声学性能在MEMS器件中应用广泛,且AlN材料的压电性能与器件的性能好坏息息相关,因此对AlN材料的压电性能的探究非常重要。本文的研究基于扫描探针显微镜实验装置,当在扫描探针显微镜和压电样品间施加直流/交流偏压后,由于逆压电效应,压电样品表面会产生形变。本文旨在通过COMSOL软件对完整探针模型进行建模,通过优化探针的各几何参数来获得与实验用探针NSC18特征频
随着现代工业对石油需求量越来越大,石油的勘探开采越来越受到人们的重视。石油勘探过程中,可以先通过测井传输系统将井下地质数据传输到地面,然后根据这些地质数据推断油气状态。在充分了解井下油气状态后,就可以最大限度地开采井下石油,从而成功提高石油开采效率。因此,井下地质数据的传输在石油开采方面具有十分重大的意义,为了更快更准确地传输这些数据,一个性能良好的测井系统必不可少。电缆测井系统便是一种常见的测井
微波窄脉冲调制信号被广泛应用于电子对抗、脉冲雷达、医疗成像、高功率微波对抗和相关效应研究等领域中。在微波激励热声成像中,微波脉冲信号的脉冲宽度是决定成像分辨率的最重要因素;在高功率微波效应研究中,具有较高隔离度的窄脉冲信号才具有实际应用价值。然而市面上脉宽小于10ns的微波窄脉冲调制源价格仍然十分昂贵,且隔离度和调制波形不够理想。基于此本文开展了基于二极管调制方式的窄脉冲调制技术研究,设计了两种体
作为一种具有大功率和高增益等特点的微波电子管,速调管广泛应用于高能粒子加速器、通信、雷达、电子对抗等领域。随着各领域对速调管性能需求的不断提高,对速调管CAD软件研究也成为速调管研究的热点之一。注波互作用对速调管的输出功率、带宽等指标具有直接影响,于是建立快速准确的速调管注波互作用理论分析模型,进行准确高效的注波互作用数值模拟研究,进而对速调管的性能进行改进优化,是速调管设计与研制的迫切需求。针对
近二十年以来,量子信息与量子计算在理论研究与实验技术方面都取得了突破性进展。先后提出了离子阱、核磁共振、量子点、超导Josephson结等量子计算方案,并在实验中进行了有限量子比特的演示性研究。但是,制约量子计算迈向实用化的一个重要因素是,实际的物理体系总是会跟周围的环境之间发生相互作用,而这必然会导致退相干。如何克服环境带来的噪声,这一直是实验与理论研究的热点。另一方面,要制备具有实用价值的量子
医学影像分割在如今成为一门重要的图像分割技术,量化右心室的医学图像评估其功能对梗塞心力衰竭、心肌肥厚等心脏疾病的诊疗及预后具有十分重要的指导意义。本文结合心脏的解剖学知识,利用水平集理论实现对右心室的精准分割,基于U-Net网络提出改进模型,搭建心脏特征点检测网络,最后通过公开的数据集对本文的分割方法和提出的特征点检测网络进行实验验证,通过几个关键评价指标说明本文的算法有效性。本文主要采用的是水平
无人机由于在低空飞行且相对速度较慢,大部分飞行路线也极易被地形或建筑物隐藏,从而成为不法分子窃取秘密情报、危害国家安全和公共安全的新工具。同时,随着无人机在军事和民用领域的应用越来越广泛,威胁也越来越大,因此快速识别无人机成为了目前的研究热点。传统的无人机识别方法如基于光学图像的无人机识别会受到天气的限制,不能全天候工作。因此,本文对多旋翼无人机的雷达识别展开研究,其主要内容和创新之处如下:(1)