面向声音事件检测的半监督域适应方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ALF123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测(Sound Event Detection,SED)是指在音频中检测出特定事件,并定位事件发生起止时间的技术,其在视频检索、人机交互等领域有广泛的应用场景。近年来,深度学习方法因其优越性能,已经成为主流的声音事件检测方法。在深度学习方法中,数据标签显得十分重要。然而,由于某些事件的起止时间难以确定,并且不同的事件可能同时发生,通过人工标注强标记数据代价昂贵。与强标记数据相比,只含有类别标签的弱标记数据和无标记数据更容易获取,弱标记半监督方法可以利用弱标记和无标记数据,降低数据标注成本。在半监督声音事件检测中,平均教师(Mean Teacher)方法取得了十分显著的结果,其通过一致性损失约束学生和教师模型在不同的扰动下的输出保持相同。除此以外,利用合成的强标记数据,还可以进一步提高半监督声音事件检测的性能。现有研究方法在使用弱标记、无标记数据以及合成数据时,存在如下问题:(1)在基于Mean Teacher的半监督方法中扰动显得尤为重要,现有的方法通过简单的数据增强引入扰动,它们虽然能带来提升,但效果有限。除了数据扰动以外,模型层面的扰动未被深入探究。(2)在声音事件检测任务中,不同事件持续时长差异较大,现有的做法主要针对后端处理模块进行改进,它们需要用到先验知识,并且不够灵活。(3)在利用合成数据时,现有方法直接将合成数据加入基于Mean Teacher方法的半监督框架中,它们虽然能带来提升,但却忽略了合成数据和真实数据之间分布差异。针对现有的研究方法中存在的问题,本文提出的研究工作如下:(1)针对常见的数据扰动对半监督事件检测提升不明显的问题,本文提出基于模型扰动的半监督声音事件检测方法。其中,模型扰动由提出的独立成分模块引入,它可以降低神经元的相关性,并增加学生模型的多样性,经过指数滑动平均后得到更好的教师模型,最终有利于一致性正则化。(2)针对不同声音事件持续时长差异较大的问题,本文提出事件相关的半监督声音事件检测方法。区别于后端处理方法,提出的事件相关的检测方法创新点在模型结构上。在提出的方法中,多种时间分辨率的特征图通过注意力机制融合。当输入的音频包含不同时长的事件时,注意力权重也将动态变化,最终使模型可以适应不同时长的声音事件。(3)为更好地利用合成数据,本文提出利用合成数据的域适应声音事件检测方法。在提出的基于相互平均教学的域适应方法中,原始的半监督域适应任务被解耦成为两个子任务:域适应和目标域的半监督学习,并且每个子任务都利用Mean Teacher方法训练各自的学生和教师模型。域适应子任务通过对抗训练方法缩小域间差异。半监督任务借鉴于协同训练,不同任务的模型采用相互平均教学方法相互促进。实验结果表明,两个子任务的模型具有很强的互补性,相互平均教学的方法能充分利用合成数据和无标记数据,提升事件检测的性能。
其他文献
近几十年来,反应扩散方程已成为种群动力学理论研究的重要工具之一。通过建立相应的种群生态模型,分析模型解的动力学性质,我们可以揭示种群的运动规律,预测生态现象。在现实中,资源分布会随着时间或位置发生变化,从数学角度反应项可能不再连续。因此经典连续系统已经不再适用,我们需要考虑更一般的系统。在本文中,我们研究带有时空结构的Fisher方程ut=uxx+f(x,t)u(1-u).考虑其生物背景,我们研究
学位
大部分高能物理实验都需要对粒子的轨迹进行测量,这通过待测粒子和径迹探测器相互作用进行探测。高能物理实验通过选择合适的径迹探测器来将粒子的位置信息转变成可被电子学系统处理、存储的电子学信号。随着几十年的发展,径迹探测器也从早期的威尔逊云室发展到多丝正比室,再到当今应用越来越广泛的半导体探测器,使得探测器的空间分辨能力、灵敏度越来越高。随着半导体工艺的迅速发展,半导体探测器的性能也在不断地提升,其中硅
学位
土壤重金属污染一直是环境领域重要研究方向,过去的研究主要聚焦在工业区、农业区、矿区和冶炼区等传统污染场地,对试验场地土壤重金属研究仍然有限。然而从军械生产、运输、使用到拆卸销毁的整个周期都会向外界释放重金属,从而导致试验场地土壤产生严重的污染问题。进入到土壤环境中的重金属可以通过摄入途径在人体内累积,从而危害人体健康。因此,对土壤中重金属污染来源和污染特征开展研究,进而对其风险开展客观评价显得尤为
学位
电阻抗成像(Electrical Impedance Tomography,EIT)技术是一种无损伤的可视化检测技术,具有无辐射、非侵入和功能性成像等优点,在生物医学、农业地质、工业检测等领域具有广阔的应用前景。但EIT技术固有的非线性、病态性和不适定性等问题,造成其成像质量较低,限制了其在应用领域中的发展。为提高重建图像质量,本文对电阻抗成像正问题计算、逆问题求解、图像重构算法和实验验证等进行了
学位
在本文中,我们改进Keener提出的模型,假定钙离子释放点是离散的,从而该系统没有一个固定形状的传统行波解,而是一种具有突变现象的脉冲波。我们对脉冲波进行研究,解释了在该系统中波的突变现象。我们首先研究该系统正稳态的性质,得出在参数a小于某个临界值ac(L)时,这个系统有两个稳定的L-周期稳态uε,+和0.接着将这个具有双稳结构的系统拆分成两个具有单稳结构的子系统,利用反向传播条件,得到了连接uε
学位
大坝安全监测是大坝全生命周期中不可或缺的部分,其体系十分复杂,具有监测内容多、监测部位分布广、监测数据量大、管理事务多等特点。传统的大坝安全监测系统存在可视化效果差、数据分析处理能力低等弊端,远不能满足现代大坝安全监测与管理的需求。BIM技术具备三维可视化、精细化管理和全生命周期等优势,但是BIM技术在水库大坝运维管理阶段的应用还很少。鉴于此,本文将大坝安全监测与BIM技术相结合,研究大坝安全监测
学位
武汉河段位于长江中游,三峡水库运行后,坝下游径流过程发生变化,水库拦沙引起长江中下游河道冲刷和水沙特性改变。武汉河段含沙量及输沙量大幅减少,床沙粗化;高洪水流量出现频率降低,滩地上过流时间大大减小促进了洲滩上植被地生长,以及近年来实施了大量的整治工程,都导致了武汉河段糙率的改变。河流阻力可以通过糙率这一综合系数进行反映,它亦是影响河道行洪的关键因素。糙率变化也会影响水流运动,研究武汉河段糙率变化对
学位
随着机器人的使用不断向人们生活中渗透,对于机器人在复杂动态环境中导航能力的要求也不断提高。传统机器人导航算法越来越难满足这些场景的需求。由于近年来强化学习在序列决策问题上取得的惊人成果,一些学者开始使用强化学习来解决导航问题。但在不同的导航场景中,强化学习导航任务的状态空间、奖励函数、训练流程的设计还存在很多科学问题。本文根据移动机器人在真实世界的应用选择了多机器人场景和社交行人场景进行研究。在多
学位
近年来,为改善城市早晚高峰聚集性通勤出行带来的交通问题,各大城市大力发展和完善公共交通,通过提升公共交通网络覆盖率和优化接驳点布局,极大方便了城市居民通勤出行。目前,大部分通勤者在借助手机应用软件制定通勤出行方案和执行方案时,这期间交通系统的供需状态时刻处于变化中,对于通勤者而言,难以掌握这一系列高度变化的不确定信息,因而在遇到途中拥堵时原有的通勤路径方案已无法满足当前状态下通勤者对在线路径选择的
学位
随着人工智能技术的发展,机器的自主能力不断地提高,智能机器在各行各业的应用和发展日益深入。在此进程中,不可避免地会遇到智能机器无法应对实际任务的复杂性和不可预测性的情况,许多系统在未来仍将需要人类在监督、目标设定、应急响应等方面与机器进行持续、密切的交互,研究此种场景下如何混合人类决策和机器决策以达到更好的决策效果也因此尤为重要和有意义。在人机混合决策中,人类决策是否有效,即人的决策是否促进任务的
学位