基于数据增强策略的有效音频分类方法

来源 :武汉科技大学 | 被引量 : 2次 | 上传用户:zgkjzh1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频分类(audio classification)是计算机听觉相关研究的主要方向之一,需要根据声音的内在特点对不同声源进行分类。随着深度学习在各领域的出色表现,有研究者尝试使用卷积神经网络来完成音频分类任务,相较传统方法而言,音频的分类精度有所提高,但还存在进一步研究空间。针对卷积神经网络对于数据量要求较高的问题,本文提出一种双重音频数据增强方法,该方法可以大幅度增加音频数据量以满足神经网络模型训练,使最终分类器具有更高的泛化能力。实验表明,本文提出的双重音频数据增强方法可以明显增强模型的泛化能力,并最终提高音频分类精度。针对卷积神经网络在分类中各类别分类精度不均衡的问题,本文提出一种构建层次化分类模型组的方法,层次化分类模型组即组建多层模型,对易错的分类进行重点训练以优化最终的音频分类精度。具体操作上依靠分类模型在测试数据上得出的混淆矩阵得到易错类,再使用易错类数据对原模型进行再训练优化得到下一层模型,通过下层模型对上层模型的结果进行优化,进而提高音频分类精度。本文基于双重音频数据增强方法总结得到DDA-IRRF算法,并将层次化分类模型组方法运用到DDA-IRRF算法中,形成DDA-IRMG算法。使用了ESC-50等四个公开数据集与一个实验室自采数据集对算法进行了检验,实验结果显示双重音频数据增强方法与层次化分类模型组方法对于提高音频分类精度具有明显积极作用,且方法限制少,具有很好的普适性。
其他文献
钨属于稀有金属,有着“工业的牙齿”美誉,在国家安全和国民经济等领域都有普遍应用,占据着举足轻重的地位,被多个国家列为战略资源,成为一种战略性金属。"十三五"时期是钨产
基于深度神经网络(Deep neural networks,DNN)的映射或分类语音增强体系结构和传统方法相比,语音可懂度实现了显著提高,但是它们仍然有进一步改进的空间。因此,本文首先对基于DNN的语音增强方法中用于训练阶段优化的代价函数进行改进,提出一种基于感知相关代价函数的深度学习语音增强方法,能够有效减少训练代价函数和人类听觉感知的不匹配。接下来,通过分析传统语音增强算法的体系结构和基于DN
本文将传统的BP神经网络和RBF神经网络与量子并行计算的概念相结合,设计得到两种全新的量子神经网络模型,分别为量子BP神经网络模型(Quantum BP Neural Network Model,QBP)与
“十三五”规划指出要加快建设抽水蓄能电站,水泵水轮机机组被广泛应用。然而,水泵水轮机运行十分复杂,需要在不同工况之间来回切换,存在两个特殊的不稳定区域:驼峰区和“S”
永磁平面电机在结构多样性、推力密度、控制精度、低速性能、能量损耗等方面较传统电机具有较大的综合优势,因此一直吸引着国内外学术界和工程界进行不断的研制和更新。本文
钢管-焊接空心球节点(简称“管-球”节点)作为空间网架结构中常用的悬挂吊车吊点形式之一,由于其制作工艺的限制,在节点焊缝处不可避免的产生焊接残余应力。在悬挂吊车循环荷载和焊接应力耦合作用下,节点焊缝焊趾处易形成疲劳破坏,故对节点焊接残余应力研究非常必要。本文在国家自然科学基金项目(51708384)、山西省留学人员科技活动择优资助项目(DC1900000602)以及山西省基础研究青年基金项目(20
随着深度学习的不断发展,超分辨率重建领域也出现越来越多的成果。虽然现在超分辨率重建算法都能取得比较好的重建效果,但是仍然存在一些不足,需要进行改进。为了解决现有算
叶面积指数(LAI)是反映森林生长过程、生存环境的重要植被参量,它能够直接量化出林地的生长状况和冠层结构。森林生态过程与LAI有着密切联系,森林生态系统中的生物和物理过程
膜计算是自然计算的新分支,是一个受生物细胞膜特性和功能启发从而抽象出计算模型和方法的研究领域,包含的研究方向有膜计算模型理论研究、膜计算模型应用研究、膜计算模型实
近年来,随着微电子及半导体产业的不断发展,微机电系统(Micro-ElectroMechanical Systems,MEMS)已经被越来越多地运用于日常生活中。MEMS技术具有低成本,高性能,微型化,集成