基于对抗域适应的声学场景分类系统

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:whb35750
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学场景分类旨在利用对音频信号的处理和分析来获取音频所描述的场景环境,该领域的发展使数据集不断得到补充和丰富,多样的数据集意味着数据分布的不一致化,分布不一致则会进一步影响声学场景分类的表现。因此,本文提出了基于对抗域适应的声学场景分类方法,通过特征对齐来减缓数据分布不一致对声学场景分类性能的影响。首先,跨设备采集会使音频信号产生一定的畸变,导致数据分布不一致,为了解决该问题,本文提出基于熵加权和指导信息的条件对抗域适应方法。该方法通过对抗训练将由不同设备采集的音频的特征分布对齐以此获取设备无关特征,减少设备差异性对分类系统的干扰。与传统的对抗域适应方法相比,所提系统将场景信息作为特征对齐的条件使特征分布按场景类别对齐;然后,熵加权为样本匹配不同的权重来提升特征对齐的效率;最后,指导信息的引入使场景信息和熵加权生成的更合适。在DCASE2019多设备声学场景分类任务的数据集上,所提方法比传统对抗域适应方法以更有效的对齐特征方式避免了设备多样性造成的分布不一致问题,平均正确率达到61.9%。其次,未定义场景与已定义场景的音频因所含语义信息或声音事件的不同而导致数据分布不一致,为此本文提出了基于对抗域适应的开放集声学场景分类方法。该方法利用预设的伪阈值规划已知场景和未知场景的界线,通过两类场景的对抗训练提取未知场景进而完成已知场景的分类任务。所提方法在DCASE2019开放集声学场景分类任务的数据集上证明对抗域适应能在识别未定义的或不感兴趣的场景的同时分类已知场景,与基线系统相比,本文方法在已知场景的识别率上提升12.4%,在未知场景的识别率上提升17.5%。最后,考虑到设备差异性和记录场景多样性可能会同时出现导致数据分布不一致,因此本文提出了一个新的应用场景:开放集多设备声学场景分类,并提出了基于对抗域适应的解决方法。所提方法通过特征对齐提取与设备无关的特征表示来完成多设备已知场景分类,并通过对抗训练识别未知场景。在DCASE 2019多设备声学场景分类任务和开放集声学场景分类任务的联合数据集上验证了模型的有效性。为了解决设备多样性或含场景未知而造成的数据分布不一致问题,本文提出将对抗域适应方法应用于多设备、开放集以及开放集多设备声学场景分类中,降低分布不一致对场景分类的影响。
其他文献
图嵌入是将图中的节点用低维、连续、稠密、具有相关性的向量表示,以便于后续的语义处理和推理。可以基于代数或者随机游走的方法对图进行学习实现图嵌入。近两年随着深度学习技术的发展,将深度学习引入图嵌入可以高效准确地获得嵌入向量。通过深度学习图嵌入方法,研究人员对节点和边同属一种类型的同构图、节点类型不同和节点间边类型不同的异构图进行了研究。但现实世界中还存在大量两个节点间存在多种不同类型关系的多路复用异
随着移动互联网、大数据、云计算、网络游戏应用等技术的发展,人们对高数据速率以及大容量光传输系统的需求不断增加,提升频谱效率从而提高系统容量成为解决光纤通信系统频谱资源受限的可行技术之一。超奈奎斯特非正交频分复用(Faster Than Nyquist Non-Orthogonal Frequency Division Multiplexing,FTN-NOFDM)技术打破传统正交频分复用技术的正交
在诸如银行、移动营业厅等实际应用场景下,借助人脸识别系统,可以快速完成对客户的实名认证,并自动办理相关业务。然而,客户在实名认证的过程中,需上传自己的人像照片或实时拍摄人像照片,然后与身份证照片进行核对。此时,若客户提供的人像照片的质量很差,会严重影响人脸识别算法的性能,从而影响自主办理业务的效率。因此,对人像照片的质量审核显得尤为重要。基于此,本文针对影响人脸图像质量的多个因素进行分析,设计并实
丢包区分一直是TCP拥塞控制的研究热点和棘手问题。由于LEO卫星网络的高动态性使得数据包丢失概率急剧增加。若无法准确判别数据包丢失类型,采用不恰当的窗口调整策略,将严重影响数据包传输速率,无法高效利用网络带宽。此外,相比于地面网络,这种高动态性导致的数据流概念漂移问题更加严重,极大的影响丢包区分模型的精度。本文基于TCP拥塞控制机制,通过构建概念漂移检测模型解决样本分布变化对丢包区分模型的影响,提
人类视觉系统具有强大的信息处理能力,人类可以在很短的时间内找到他们感兴趣的领域,即显著性区域。通过计算机视觉相关算法提取图像或视频中显著区域的技术即为显著性检测技术。近年来随着技术的发展以及对信息处理速度的要求,使得显著性检测技术受到关注并取得了很大进步。传统的显著物体检测方法致力于检测显著物体所在的区域。但是当人们集中精力时,通常只关注物体的一部分,而不是整个目标。因此,通过检测眼动情况来检测注
随着互联网的蓬勃发展,越来越多的应用对时延的稳定有着严格的要求,互联网“尽力而为”的传输方式已经不能满足需求,所以确定性网络应运而生。确定性网络是IETF提出的一种新的网络架构,拥有资源预留、服务保障和显式路由三大技术,可以提供极低的丢包率和严格的时延抖动的通信服务。但是由于确定性网络是一种新出现的网络技术,依然存在一些问题。针对缺乏符合确定性网络特点的路由算法的问题,本文研究了Bhandari算
随着无线通信技术和物联网技术的发展,无线mesh网络逐渐呈现异构化趋势。相比于同构无线mesh网络,异构无线mesh网络将各种网络架构、传输速率、传输距离和频谱资源存在差异的网络融合为一个整体,可以有效的提升网络覆盖面积和服务质量(Quality of Service,QoS),因此近年来备受学术界和工业界的关注。由于架构和链路的异构性特点,异构无线mesh网络更加适合解决多种类型业务的QoS需求
随着5G/6G无线通信系统的发展,毫米波/太赫兹应用受到了越来越多的研究。毫米波/太赫兹高频段技术能够实现大宽带、高速率、低时延、高集成的特性,在医疗、生物检测、遥感、安全、无线通信等领域有着广泛的应用。由于60GHz频段处于氧气吸收峰,信号可快速衰减,可应用于短距离高速无线通信。140GHz的电磁波在大气外几乎无衰减,可应用于宇航间通信。高增益、高效率的60GHz/140GHz宽带毫米波/太赫兹
在人工智能迅速发展的背景下,基于深度学习的任务型对话系统由于其广阔的应用场景以及丰富的技术挑战一直受到广泛的关注。越来越复杂的使用场景也催生了多领域任务型对话系统的出现,例如智能助手在帮助预定车票时,也需要关注目的地的住宿情况。利用单领域叠加的方式会存在槽位共享困难、系统调用混乱等问题,难以适用于复杂的多领域场景。在领域较多时,当前研究存在着对话状态追踪准确率不高的问题,应对愈发庞大的本体数量、以
语义分割将原始生物医学图像数据转换为有意义的、空间结构化的信息,因此在医学影像分析研究中起着至关重要的作用。尽管最近基于深度学习的分割方法取得了成功,但它们受制于医疗影像数据集样本数量比较少,导致其模型泛化性不够理想。尤其脑部胶质瘤的位置、大小、形状的特异性较强,导致人工标注数据难度大容易产生误判和分歧从而造成标签噪声,并对泛化性提出了更高的挑战。针对这一问题,从数据增强角度,本文提出了一种数据增