基于深度学习的声音事件识别研究

来源 :东南大学 | 被引量 : 11次 | 上传用户：lele3383

【摘要】

：

声音作为一种重要的信息载体,由于其易收集、不受角度和光线的限制等优点,常被用于辅助环境感知和信息决策。声音事件识别技术正是声音识别的典型应用。作为一个具有广阔应用

【作者】

：

王诗佳

【出处】

：

东南大学

【发表日期】

：

2018年01期

【关键词】

：

声音事件识别深度学习循环神经网络卷积神经网络频谱图特征生成式对抗网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声音作为一种重要的信息载体,由于其易收集、不受角度和光线的限制等优点,常被用于辅助环境感知和信息决策。声音事件识别技术正是声音识别的典型应用。作为一个具有广阔应用前景的研究领域,声音事件识别备受研究学者们的关注。通过接收并处理环境中的声音信号,声音事件识别技术可以侦测判断出环境中的物体与发生的事件,例如鸟叫声、枪声和敲门声等,并能迅速地感知到环境中的变化,例如脚步声由远及近等。因此,声音事件识别技术已被用于安防监控、音频内容检索、医疗监护和机器人智能感知等领域中,为新型的人机交互方式和智能机器听觉系统提供了帮助。声音事件识别技术自上个世纪80年代初发展至今,各种特征提取方法和分类算法层出不穷,取得了长足的发展。并且自2006年起,CLEAR和DCASE等声音事件识别领域的国际竞赛如火如荼地展开,进一步推动了声音事件识别技术的发展。此外,近年来深度学习的出现,为声音事件识别技术的突破提供了可能。深度学习以深度神经网络为主要框架,并由此衍生出各类用于不同结构的网络,诸如卷积神经网络、循环神经网络和深度信念网络等,这些网络功能不同,被应用于各个领域,并取得了巨大成功。因此,本文主要围绕多种深度学习模型来展开对声音事件识别技术的研究,通过利用各类不同结构的深度神经网络,对声音事件样本进行信息提取和表征学习,进一步提升声音事件识别系统的识别准确率。研究内容主要为以下几方面:首先,对基于循环神经网络的声音事件识别方法进行了研究。通过分析了循环神经网络存在的缺陷——梯度消失和梯度爆炸问题,引出了用于解决此类问题的改进型循环神经网络,例如LSTM和GRU。基于声音事件识别的特点,对声音事件音频样本进行分帧处理,并提取其MFCC作为特征,再结合GRU为分类模型构建了基于循环神经网络的声音事件识别系统。与多种传统模式识别分类算法进行了实验对比,结果表明,基于GRU的声音事件识别模型有效地利用了声音事件天然存在的时序属性,并通过循环层网络解决了长时间依赖性问题,提高了识别的准确率。其次,提出了一种改进的多尺度卷积神网络模型,并将其用于声音事件识别中。传统栈式堆叠结构的卷积神经网络存在缺失低层次特征表示的问题,针对这一问题,通过将网络中的所有卷积层的特征图连接在一起,并利用CCCP层对底层特征图进行通道降维,使得网络最终提取出的特征包含来自各层的特征,从而最大程度上保留了特征信息,构成了多尺度卷积神经网络。此外,对声音事件音频样本提取梅尔频谱图及其时间轴方向和频率轴方向的一阶和二阶差分频谱图,组成多通道梅尔频谱图作为输入特征。在ESC和TUT数据集上的实验结果证明,利用多尺度卷积神经网络结合多通通梅尔频谱图能有效地提取并融合各层次的特征,从而提高识别准确率。最后,提出了一种基于深度卷积生成式对抗网络的声音事件数据增强方法。首先从数据集中提取出的各类SIF特征,并构建了DCGAN网络用于学习此类SIF特征,从而批量产生类似的伪样本。之后利用伪样本在SVM超平面中的距离和在CNN中的判别概率选择质量较好的伪样本,进行数据增强以提高模型的性能。此外,借鉴了对抗训练的思想,在数据增强的同时,加入一些质量较差并在类别分辨上具有模糊歧义的伪样本,用于提高模型的稳定性与鲁棒性。频谱图、多通道梅尔频谱图以及GBVS显著图等特征被用于实验中,在ESC和TUT数据集上的多个特征对比实验以及模型对比实验证明了该方法能有效地提高声音事件分类模型的性能。

其他文献

高校教务秘书在学风建设中的作用探索

随着社会环境的不断发展变化，高校学风建设面临越来越多的问题。在学风建设中充分发挥教务秘书的作用，将对学风建设起到有效的促进作用。本文从学风问题的表象入手，全方位分析了

期刊

学风建设教务秘书桥梁作用Style constructionSenate SecretaryBridge

颗粒表面包无机膜工艺及其应用的研究现状

颗粒表面包膜是目前发展的一种新技术,它通过从微观对颗粒进行包裹来改变其有关性能,进而改变材料粉体和块体的宏观性能.目前这项技术在材料改性领域广泛应用.无机膜近年来发

期刊

颗粒表面包膜无机膜工艺技术应用

强化央行监管的几点建议

强化央行监管的几点建议戴福禄，宋云利１．增强中央银行的权威性。目前，我国的中央银行的权威性、独立性还未完全建立起来，难以排除来自各方面的行政干预。因而宏观调控乏力，难以真正

期刊

央行监管中央银行货币供应量资本市场基础货币社会主义市场经济体制业务操作系统金融业固定资产投资货币政策工具

帕罗西汀联合催眠疗法治疗强迫症

目的:探讨帕罗西汀联合催眠疗法治疗强迫症的临床可行性。方法:2014年1月-2016年4月门诊就诊强迫症20例患者,在自愿选择方案的情况下分成2组,帕罗西汀联合丁螺环酮组(11例)及

期刊

强迫症帕罗西汀催眠丁螺环酮

浅谈风电场机电设备安装的质量控制措施

当前,国家把风电场建设纳入发展生态能源之列。在风电场建设的高速路上,只有将风电场机电设备安装的质量与施工质量融合才能让整个建设工程保质保量完成,同时最大化的节约项

期刊

风电场建设新圩镇机电设备安装年平均风速风能资源生态能源项目成本建设工程

专业品质值得信赖——广西电网建设与改造工程供应商推荐目录

期刊

DLL木马的发现与清除

探讨了DLL木马的危害性，提出了如何发现这种木马的方法以及清除这种新型木马的措施。

期刊

网络安全DLL木马发现清除DLL Trojan Horse detectiondeletion

管理会计在民办高校财务管理中的应用研究

随着高等教育的快速发展和国家对高等教育产业的大力支持，很多社会资金进入了高等教育领域，建立了以职业技术教育为主的民办高校。民办高校的资金来源较为复杂，呈现出以企业投资

期刊

民办高校高校财务管理管理会计高等教育产业应用职业技术教育教育领域资金进入

梅花香自苦寒来宝剑锋从磨砺出--积极心理学视角下高校贫困生挫折教育案例

本文通过典型案例，从关怀生存状态逐步深入到持续发展关爱贫困生，通过“三维、四点、四结合”模式探索，促进挫折负面消极影响向正面激励作用转化，有效提升他们的综合成长力和社会

期刊

积极心理学贫困生挫折挫折教育

股东代表诉讼初探

当公司、股东的合法权益受到侵犯时,股东代表诉讼制度是一种重要的司法救济权利,但我国公司法尚未对此作出明确的规定,从而在实践中产生了许多亟需解决的问题。文章从股东代

期刊

股东代表诉讼shareholder representative lawsuit

基于深度学习的声音事件识别研究

与本文相关的学术论文