CRNN声音事件检测的音频标记约束与域适应方法研究

来源 :重庆大学 | 被引量 : 1次 | 上传用户:tk6014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测不仅需要识别出事件类别,还要检测出该事件在时间序列中发生的起止点。最近,深度学习技术在声音事件检测领域取得了非常大的进展,但是,要得到性能良好的声音事件检测模型,需要花费大量的人力和成本来获得一定规模的有标注数据集。随着谷歌发布了大型音频事件数据集Audio Set,以及IEEE DCASE竞赛的逐年进行,越来越多的人开始关注声音事件检测这一领域,基于数据集训练的声音事件检测模型的性能变得越来越好。然而,声音事件检测依然面临着诸多的挑战。1)声场环境复杂多变,事件声音与背景声音混杂在一起,并且多个声音事件也会在同一时刻发生,不同的采集设备对同一事件的响应过程也不相同。当前的卷积循环神经网络声音事件检测模型对这些复杂的声学特性的处理能力依然不足,这需要设计更有效的声音事件检测网络,强化模型的特征提取能力。2)基于数据集训练的声音事件检测模型需要在大量强标签音频上进行有监督学习,而强标签音频的获取成本很高。利用计算机技术,只需要少量的人工参与便可得到大量具有强标签的合成音频数据集。可以使用合成音频作为训练集来学习应用于真实音频的声音事件检测模型。然而,合成音频与真实音频之间的数据分布差异很大。如果将合成音频上训练的模型直接应用到真实音频上,模型的检测性能通常会大幅下降。如何利用合成音频得到在真实场景下鲁棒的声音事件检测模型是目前亟待解决的一个新课题。针对以上两个问题,该文从以下内容开展研究:1)针对卷积循环神经网络对音频上下文信息提取能力的不足,该文提出音频标记一致性约束声音事件检测方法。该方法通过对卷积神经网络的输出特征与卷积循环神经网络的输出特征分别进行音频级别的分类来获得CNN音频标记与CRNN音频标记,并使用音频标记一致性约束网络约束CNN音频标记与CRNN音频标记的一致性来提升CNN对音频的上下文信息提取能力。通过约束音频标记的一致性使得卷积神经网络部分在提取帧级局部特征时依然能够提取音频样本的上下文信息。2)针对合成音频与真实音频之间的域差异而导致的真实场景下声音事件检测模型泛化性能下降,该文提出双对齐域适应方法来对齐合成音频与真实音频之间的数据分布并应用于声音事件检测任务。双对齐域适应方法同时考虑了域间对齐和域内对齐两种角度,通过构建三个域鉴别器分阶段的拟合合成音频与真实音频之间的域差异,将合成音频上训练的声音事件检测模型迁移到真实音频场景中。该方法在合成音频与真实音频之间通过特征提取网络与域间鉴别器进行对抗学习,来进行数据分布的域间对齐。针对域间对齐域适应面临的平衡挑战问题,通过在合成音频与真实音频的域内各自构建一个域内鉴别器来进行域内难、易样本子域数据分布之间的域内对齐。期望通过更加紧凑的域内数据分布来缓解域间对齐域适应面临的平衡挑战。该文在DCASE 2019竞赛的任务4家庭环境声音事件检测发布的数据集上开展研究,分析当前声音事件检测面临的问题,并验证该文提出的两个方法的性能。实验表明,音频标记一致性约束声音事件检测方法可以有效的改善声音事件检测模型的特征提取能力;双对齐域适应方法可以有效的改善合成音频上训练的声音事件检测模型在真实场景下的泛化性能,该文提出的方法取得了现阶段最优的声音事件检测结果。
其他文献
手术麻醉信息系统(Operation Anesthesia Information System,OAIS)作为医院信息管理系统的重要子系统,负责存取患者在术前、术中和术后的诊断数据,对病人的治疗与康复有重要意义。然而由于OAIS中主要的数据类型为诊断文本和患者生理监测序列数据,比较难以处理,目前对其数据主要进行采集、存储和查看,很少针对其中的数据进行挖掘与分析。如果能对这些数据进行深度挖掘与分析
学位
地表水环境水质监测是保障人类和生态环境健康的必要手段,尝试使用机器学习开发水质预测模型对高效开展地表水水环境质量监测和评估具有重要意义.本案例研究旨在评估6种机器学习模型预测水质指数(CWQI)的性能,包括多元线性回归、回归决策树、支持向量回归、弹性网络回归、随机森林和极端梯度,并使用Shapley值和SHAP值评估各变量对模型的重要性.研究发现,各模型在预测CWQI方面均具有良好的性能,且随着具
期刊
金纳米颗粒(Gold nanoparticles,Au NPs)由于出色的生物相容性、可调控的表面修饰性以及独特的光学性能,被广泛应用于传感器、催化、医学诊断和治疗等领域。基于Au NPs的光学生物传感技术具有简便、稳定、低成本等优点,可实现对目标物的高灵敏检测。本论文对基于Au NPs的光学生物传感技术的国内外研究现状进行分析,针对部分地区检测仪器缺乏的问题,提出一种基于Au NPs比色法的光学
学位
睡眠对于人体至关重要,不幸的是,有近25%的成年人存在睡眠障碍。临床上,脑电图是医生分析睡眠问题的首选。但是脑电图数据量大,波形干扰严重,判读规则复杂,不同专家之间的判断也存在不小的差异。此外,医用脑电图采集复杂,当前基于脑电图的人工睡眠分析模式耗费巨大的人力财力,大众面临的睡眠困扰问题亟需便捷、稳定、自动化的分析手段。鉴于此,本文基于脑电波的睡眠状态评估技术研究主要做了三点工作。第一,从传统信号
学位
在NVH问题的解决过程中常需要确定声音辐射源来对噪声进行抑制,现有的一些声源识别定位方法存在一定的局限性,且操作过程较繁琐,因此为达到根据噪声音色特征来直接识别发声源的目的,对结构声音色特征提取分析工作进行了如下研究:首先对机械结构噪声发声系统与语音信号发声系统进行对比分析,发现两者从激励源模型到辐射模型都具有很高的相似性,明确了所要提取的结构声音色特征的具体成分:即对某结构所辐射噪声中的激励信号
学位
随着科技的发展,航空航天、精密加工、精密测量等领域中精密仪器仪表对环境振动的要求越来越高,因此微振动控制也受到了越来越多的关注。传统的被动隔振器由于其结构参数固定难以满足复杂工况下的隔振需求,此外其对低频振动也难以起到抑制效果。基于磁流变弹性体(MRE)的半主动隔振器是一种磁控智能隔振装置,其仅需以较小的电流激发磁场就能使隔振结构的刚度和阻尼产生较大的变化,凭借参数可调、功耗低、稳定性好等优点已成
学位
随着社会的发展,气湿敏传感器在工业、农业、智能家居和环境监控等领域扮演着越来越重要的角色,高性能气湿敏传感器急需发展。全无机卤化物钙钛矿材料因具有良好的载流子传输特性、较好的表面敏感性和化学稳定性等优点在气湿敏传感领域引起关注。因此,本论文探索了基于典型卤化物钙钛矿CsPbX3(X=Cl,Br,I)和新型卤化物钙钛矿CsCu2I3传感器的气/湿敏性能,为今后全无机卤化物钙钛矿在传感器领域的进一步发
学位
脑炎和胶质瘤是常见的两种在病因、治疗方法以及预后处理等方面完全不同的颅内病变。在初期的临床诊断过程中,二者的磁共振检查成像(Magnetic Resonance Imaging,MRI)表现会出现类似特征,仅依靠医生经验难以进行正确的鉴别,会导致误诊的情况出现。现阶段计算机辅助诊断利用计算机强大的图像处理能力和影像组学的特点,能够为临床诊断提供有意义的指导。当前基于影像组学的计算机辅助诊断主要分为
学位
在我国人口众多、老龄化社会的背景下,康复移动辅助器具具有巨大的市场需求和前景。轻量化、廉价、舒适耐用是康复移动辅助器具的核心指标,目前市场上常用的钢铁、钛合金等材料难以满足轻量化、廉价等需求。镁合金密度小,阻尼性能高,有巨大的潜力开发为新一代康复移动辅助器具材料。然而,镁合金的强度较低、难满足结构材料的力学性能要求;化学性质活泼、容易被腐蚀,其应用受到极大的限制。基于上述问题,本文采用在ZK60基
学位
运动模糊是日常拍摄的模糊图像中最常见的模糊,严重影响了人们对数字图像的正常使用。运动模糊图像通常分为两种:空间不变模糊图像和空间变化模糊图像。空间不变模糊图像中各像素点的模糊方式和模糊程度相同,即具有一个相同的模糊核。空间变化模糊图像中各像素点的模糊方式和模糊程度均不相同,即具有不同类型或大小的模糊核。对于空间不变模糊图像复原,精确地估计出全局模糊核是解决问题的关键。但为空间变化模糊图像中每一个模
学位