声音事件分类与检测的半监督学习方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wintertear0704
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测是对一段音频检测包含的声音事件和发生位置的技术,声音事件分类则只需获得事件类别信息。这一技术是获取周围环境信息不可缺少的手段,特别在某些特定环境,例如黑暗环境,有着独特的优势。近年来,随着Google发布大型音频事件数据集AudioSet,声音事件检测使用神经网络变成了可能,越来越多的研究者开始关注这一方向,声音事件检测的发展迎来了新局面。但是,不可否认,声音事件检测还面临许多困难。一方面,声音事件的复杂多变,甚至会出现同一时刻发生多个事件的情况,这无疑对检测系统提出了很高的要求。另一方面,具有完善标签的数据集代价昂贵,很难获得,AudioSet是只含有事件类别的弱标签数据集,利用这样的数据甚至是无标签数据得到可用的检测系统也是一项极具挑战性的任务。如今声音事件检测技术还出初步发展阶段,距离真正实用的成熟系统还有许多问题亟待解决。本文主要针对上述两个难点进行研究,首先搭建基于卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)的声音事件分类与检测系统,该系统使用弱标签数据进行训练。在此基础上,为提取更加具有区分性的特征引入注意力机制,强化有效特征,抑制无用特征。既从局部角度提取有效结构信息,又从全局角度选择可用的通道信息。实验表明注意力机制有效提升了系统的性能。然后提出相比帧级特征信息更加丰富的事件素特征,扩大可视野范围,进一步提出多尺度事件素特征,让持续时间较长的事件使用大尺度事件素特征,持续时间较短的事件使用小尺度事件素特征,提取更加符合声音事件的特性的特征表达。实验表明多尺度事件素对于事件的识别有着积极的作用。最后使用平均教师半监督学习方法利用无标签数据,设计多任务模型,让检测任务和分类任务使用不同分支,缓解两者对特征要求的矛盾,进而教师模型产生更加可靠的学习目标指导学生模型,此外提出使用同时混合有标签数据和无标签数据的数据混合技术,扩大数据范围的同时对数据扰动,从而更好地进行半监督学习,实验表明利用无标签数据能够改善系统性能。
其他文献
当前新型冠状病毒的爆发,使得教师依靠线上开展教学,有的教师采用样例教学,学生在家中自主学习的形式,教师对于样例的选择和设计往往受到诸多因素的制约,如样例的呈现形式、
气体传感器与人们生活的各个领域息息相关。近年来,不断有新的气体传感器被开发出来并商业化。影像技术因其直接、灵敏、快速响应等特性,成为越来越重要的技术工具。而图像处
近年来,道路交通需求极速增长,交通事件的增多导致公路运行能力和服务质量显著降低,在交通瓶颈路段或交通出行高峰时段经常出现交通拥堵,部分路段的拥堵甚至影响整个路网交通
包壳管与端塞是反应堆芯的重要组成部分,包壳管与端塞的焊接质量是影响反应堆安全运行的重要因素。15-15Ti不锈钢具有优良的高温力学性能、抗辐照和抗液态铅合金腐蚀性能,被
当前陆地资源日益匮乏,海洋资源逐渐成为人类关注重点,作为开发海洋资源的重要装备之一,水下机器人-机械臂系统(UVMS)具有独特的自身结构和执行任务的多样性等特点,逐渐成为
随着经济技术的不断发展和人类生活水平的提高,人类面临的疾病问题也不断增加,其中以脑卒中疾病最为明显。虽然医学技术在不断进步,脑卒中患者的存活率在上升,但由脑卒中引起
本文对我国创业板上市公司在2015-2019年作为案例的背景,通过分析发现上市公司变更的数量比较多、涉及的资金比较大。本文在案例分析部分,统计了创业板市场上市公司变更资金
得益于V2X和传感器技术的快速发展,车辆的状态可以被准确地测量,并统一地被存储在云端。这些状态可以看作是一个无限属性的集合,例如车辆周围的车辆密度,信号强度等。所以车
随着我国经济的快速增长和现代化进程的加快,水库、湖泊等地表水已经成为绝大多数城市的主要饮用水水源,内源污染是目前大多数水库亟需解决的水质问题之一。水库水温分层是内
目前国内外越来越多的老旧建筑结构存在不同程度的安全隐患,采取及时有效的加固改造措施显得十分必要。近年来随着新材料、新技术在加固领域的广泛应用,我国混凝土加固改造技