基于深度学习的音频事件检测方法研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:dygaalove4390
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频事件检测是一种检测音频事件类别及其起止时间的技术,它在安全监控、生物多样性保护、多媒体检索推荐和场景感知等民用与工业领域中有着广泛的应用。在现实环境中,音频事件可能相互混叠,要检测出音频事件的类别及其起止时间难度较大,虽然目前国内外不少科研单位都对此开展了研究,但是由于发展时间短,起步较晚,目前的检测技术依然不够成熟,还存在较大的研究空间。在需要检测出准确时间边界的应用场景中,检测方法主要依赖于有监督学习,由于音频事件的时间边界只能依赖于人工标注,有监督学习所用到的数据集往往规模较为有限。在数据集有限的情况下,如何构建高性能的深度学习模型是目前的研究难点。本文开展了基于深度学习的音频事件检测方法研究,主要从人工特征提取与深度学习建模两个方面出发,研究了梅尔频率倒谱系数和对数梅尔谱特征的提取方法,围绕着深度学习的基本理论,对卷积神经网络、循环神经网络和注意力机制开展了研究,并在街道场景数据集上,对提出的检测模型开展了检测分析。主要做了以下三个方面的工作:(1)建立了基于卷积神经网络的检测模型,通过实验对四种特征提取方案开展了检测分析,并探究了梅尔频段数对检测性能的影响。采用基于对数梅尔谱的多通道多窗口长度特征,对由卷积神经网络与循环神经网络组成的不同模型开展了检测实验,其中最佳检测模型BGNet的F1值为0.60,ER值为0.63,有着良好的检测效果。(2)对压缩激励注意力方法开展研究,在BGNet网络架构的基础上,搭建了三种基于压缩激励的改进模型,其中BGNet-SE3的F1值为0.63,ER值为0.55,检测结果表明:压缩激励方法可以显著改善音频事件检测模型的检测性能。(3)对卷积注意力方法开展研究,分别对以下三种注意力机制开展实验:卷积注意力方法的通道注意力机制、空间注意力机制和完整的卷积注意力机制,在BGNet网络架构的基础上,搭建了三种基于空间注意力的改进模型、三种基于通道注意力的改进模型和三种基于卷积注意力的改进模型,其中BGNet-SP2的F1值为0.63,ER值为0.56,BGNet-CH3的F1值为0.64,ER值为0.57,对比该领域的其他方法,提出的改进模型具有良好的检测性能。
其他文献
相关知识:何谓“劣币驱逐良币”这是一个著名的经济学现象。在铸币时代,当那些低于法定重量或者成色的铸币—“劣币”进入流通领域之后,人们就倾向于将那些足值货币—“良币”收
吡喹酮化疗耕牛血吸虫病的副反应李成亮,明心中,杨琳芬(江西省家畜血防站)我省自50年代中期至90年代初,在大面积化疗家畜血吸虫病方面,经历了酒石酸锑钾、Sb—58、血防一846、敌百虫、硝硫氰胺
共享经济的到来让共享单车成为人们生活中常见的重要交通工具,其带给人们生活便利的同时,也引发新的问题。随意乱停乱放不仅严重影响车辆的使用,而且也造成城市管理秩序紊乱
目的:观察放疗联合同步口服希罗达治疗直肠癌术后复发患者疗效。方法:选择直肠癌术后复发患者38例,随机分为放疗+希罗达综合治疗组(17例)和单纯放疗组(对照组21例)。希罗达剂量为825m
目的:研究RASSF1A蛋白在胃癌中的表达及临床病理学意义。方法:采用免疫组化SP法检测69例胃癌组织,慢性浅表性胃炎(CSG)和慢性萎缩性胃炎(CAG)各15例,伴肠化生(IM)15例和伴异型增生(DYS)19
随着GTX460的到来,各AIC也争做最有特色的非公版。然而,从NVIDIA开放了GF104的设计开始,市面上便有不少的超频版。当然,这得益于GTX460优秀的超频性能。我们现代计算机评测室收到
作者对80例产妇分别采用新式剖宫产手术,传统的下腹纵切口腹膜内剖宫产手术两种方法,着重观察其术中出血量,胎儿娩出时间,手术完成时间,术后疼痛情况,肠蠕动恢复时间,留置导尿管时间,住
物理概念的学习和教学是物理教育研究的一个重要研究方面。然而,物理概念教学也是中学物理教学实践中遇到困难最多的部分,因此物理概念的学习和教学研究是极其必要的。从教育
目的:研究β-catenin、β-TRCP在肝细胞癌和癌旁组织中的表达特点及相互关系。方法:β-catenin和β-TrCP的表达是用免疫组化方法在石蜡包埋的肝癌和癌旁组织切片进行染色。结果
在6月底贵阳召开的全国工程建设优秀QC小组活动成果交流会上传来好消息.三航局江苏分公司的三个QC小组表现优异,取得了良好的成绩,其中缅甸皎漂项目部的“提高大圆筒沉箱安装的