基于深度学习的声音事件检测研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:menghuilong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音事件检测的主要目的是检测出音频中声音事件对应的类别和起止时间。在某些特殊环境中,如黑暗、光照影响、视野盲区等,声音事件检测可以弥补仅依靠视觉检测方法的不足,大大提高检测可靠性,发挥其独特的优势。作为计算机听觉领域的热点问题,声音事件检测已经在智能家居、安全监控、智慧医疗、生物多样性监测等多个领域得到广泛应用,为人们带来了更便捷、更安全、更舒适的生活方式。声音事件检测的应用前景较为广阔,具有重要的研究意义与价值。在声音事件检测的研究中,主要存在以下两个难点:多种声音会在同一时刻同时发生,提高多音事件检测成为一项难题;在声音数据缺少起止时间标签的情况下,提高弱标签声音事件的检测性能成为另一项难题。本文针对以上两个难点,使用基于深度神经网络的方法,对声音事件检测展开研究,主要内容如下:(1)提出门控膨胀卷积胶囊网络模型,以提高多音事件检测性能。首先,为缓解胶囊网络中卷积层单一导致的特征提取不足问题,提出门控膨胀卷积结构进行深度特征提取。在门控膨胀卷积结构中,线性门控单元具有降低无关特征干扰的能力,膨胀卷积层可以获得具有长时上下文的时频信息,残差连接有效缓解梯度消失问题;其次,设计主胶囊层得到向量形式的胶囊特征,检测胶囊层作为分类结构,动态路由算法在主胶囊层和检测胶囊层之间学习部分与整体的关系,以更好地对声音重叠部分进行识别;最后,提出基于时频特征拼接的混合数据增强方法,提高模型的泛化能力。为了验证提出模型的有效性,在TUTSound Events 2017数据集上进行了相关实验。评估集上的结果表明:提出的网络模型与胶囊网络相比,ER下降19%,F1提升3.9%;与其它经典深度神经网络模型相比,获得了更低的ER与更高的F1,有效地提高了对多音事件的检测性能。(2)提出基于多尺度特征融合与注意力机制的卷积循环网络模型,以提高弱标签声音事件检测的性能。首先,提出多尺度注意力模块,融合基于时频特征的局部注意力与基于通道特征的全局注意力。在卷积过程中,实现对时频特征单元注意的同时,也实现对不同通道特征的注意。其次,提出一种多尺度特征融合方法,实现对不同卷积特征的融合,得到包含不同维度的多尺度特征图。然后,将多尺度特征输入双向门控循环模块,对时间依赖性进行建模;最后,全连接层对声音事件进行分类。除此之外,使用数据平衡技术,对少量样本进行数量扩充,进一步泛化模型。为了验证提出模型的有效性,在AudioSet子数据集上进行了相关实验。评估集上的结果表明:提出的网络模型与卷积循环网络相比,ER下降11%,F1提升8.3%;与同数据集上的其它方法相比也有一定竞争力,有效地提高了弱标签声音事件的检测性能。
其他文献
羊乳中不仅富含蛋白质、脂质、矿物质和维生素等,还有丰富的乳铁蛋白、表皮细胞生长因子和胰岛素样生长因子等生物活性成分,具有很高的营养价值和保健价值。陕西省的奶山羊产业已发展为全国最具优势的特色产业,其中功能性羊酸乳产品的开发已成为该产业的一个重点发展方向。然而功能性乳酸菌菌种资源的缺乏严重制约了功能性羊酸乳产品的发展。为解决这一问题,本课题拟从传统发酵食品—陕西浆水中筛选出具有降胆固醇能力和抗氧化活
学位
财务风险存在于企业经营过程的每个环节,随着经济社会的快速发展,我国公司无论是内部环境还是外部环境都面临着巨大的变化,此时财务风险问题屡见不鲜。另外,人们环保意识越来越强,近年来新能源行业在我国迅速发展与壮大。在其快速成长的过程中,投资过热、融资难度高、资金需求量大的特性都引发了企业较大的财务风险。在此背景下,加强新能源企业的财务风险管理,是其应对内外部不断变化的环境和财务风险的重要举措和必然选择。
学位
目的:生殖细胞肿瘤可以伴随精子发生障碍,是男性不育的重要原因。生殖干细胞的功能异常可导致生殖细胞肿瘤的发生。生殖干细胞的自我更新和分化潜能不仅受其内源性信号的影响,而且经历干细胞微环境的有序调控。模式动物果蝇的睾丸是研究生殖干细胞微环境调控非常理想的模型。核糖体小亚基蛋白RpS13被鉴定为调控果蝇睾丸生殖干细胞自我更新和分化的重要因子,然而,其在生殖干细胞微环境中的具体调控机制尚不明确。本研究旨在
学位
α,β-烯酮结构单元不仅在天然产物、药物、精细化学品等中广泛存在,而且常作为合成中间体被广泛应用于各种有机转化,因此其合成研究一直备受关注。α,β-炔酮的1,4-选择性还原是制备相应烯酮的重要策略,但因存在易过度还原、依赖贵金属、难以回收利用等问题,仍然是极具挑战性的课题。鉴于廉价金属钛(Ⅲ)配合物通过单电子还原机制衍生的催化应用已在环氧化合物、醛、酮、卤代烃等有机官能团的活化方面初露锋芒,结合我
学位
目的嗜麦芽窄食单胞菌是一种多重耐药的条件致病菌,通过分析其噬菌体的生物学特性与基因组学特点,为进一步深入研究噬菌体基因组学以及噬菌体替代疗法的应用研究提供数据与理论支持;对其裂解酶M15的表达和活性预测也为噬菌体制剂的下一步研究提供了实验依据和理论基础。方法观察该噬菌体在透射电镜下的形态后,通过测定其MOI、一步生长曲线、裂解谱及热稳定性、酸碱耐受性等分析其生物学特性;将该噬菌体基因组DNA进行全
学位
随着经济的快速发展和城市化进程的加快,水环境污染越来越严重,尤其是水体富营养化污染,它是当前人类共同面临的最棘手的环境问题之一。为了保护水环境,防控水体富营养化,我国乃至世界各国严格控制污染物的排放,提高了污水的排放标准,尤其是氮、磷排放标准。在污水排放标准提高的严峻形势下,我国污水处理厂面临着严重的挑战,尤其是老厂,提标改造势在必行。本文对铜山区新城污水处理厂的提标改造工程进行了系统研究。首先通
学位
张量积?的存在使得完备格范畴Sup成为了一个对称的Monoidal闭范畴,目前至少有三种不同的方式来刻画完备格的张量积.利用张量积可以研究特殊完备格的张量积,也可以将其应用于Quantale理论.本文主要从代数的角度来考虑张量积?的消去律问题,即什么条件下有下式成立:L?M≌N?M?OL≌N.(*)在Sup的满子范畴SSup中,张量积的消去律(*)与偏序集范畴Pos中笛卡尔积的消去律(**)是等价
学位
白细胞是维持人体免疫功能的关键元素,临床诊断中将观察不同种类白细胞的数量及形态作为诊断造血系统疾病的重要手段,因此,白细胞的检测在临床医疗领域至关重要,而白细胞图像检测又包括了图像采集、细胞分割、特征提取和分类识别几个步骤,白细胞分割是医学图像处理领域的一项富有挑战性的任务,其面临以下两个问题,一是白细胞种类多,且其形态复杂、变化多样,传统算法分割效果不佳,二是监督学习的分割算法往往需要大量专业人
学位
我国是农业强国,农业是我国的经济基础.害虫控制是影响农业发展的一个关键因素,其中化学防治是重要的手段之一.但是,随着化学农药的长期和高频率使用,害虫的抗药性愈发凸显,引起了国内外许多专家学者的广泛关注.为了有效地控制抗药性的发展,达到害虫控制的目的,各国专家学者们提出了许多控制策略.其中,最常用的策略就是,在对害虫采取化学控制的同时,采取其他控制手段,例如生物控制,即投放天敌.同时,害虫控制的目标
学位
工业建筑遗产是工业革命的产物,也是人类历史文明的产物。在社会的发展过程中,工业建筑遗产做出了巨大贡献,对建筑、生态、文化、社会经济等都有不可磨灭的价值。工业建筑遗产是城市工业文明的象征和历史文脉的载体。目前,国内工业建筑遗产随着产业转型,其数量不断增多,出现了一大批的工业厂房、车间、工业生产建筑、机械设备及相关文件资料等。这些物质遗产与非物质遗产因缺乏法律保护而遭到破坏,使得工业文化的传承出现了断
学位