基于深度学习的声音事件识别研究

来源 :东南大学 | 被引量 : 11次 | 上传用户:lele3383
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音作为一种重要的信息载体,由于其易收集、不受角度和光线的限制等优点,常被用于辅助环境感知和信息决策。声音事件识别技术正是声音识别的典型应用。作为一个具有广阔应用前景的研究领域,声音事件识别备受研究学者们的关注。通过接收并处理环境中的声音信号,声音事件识别技术可以侦测判断出环境中的物体与发生的事件,例如鸟叫声、枪声和敲门声等,并能迅速地感知到环境中的变化,例如脚步声由远及近等。因此,声音事件识别技术已被用于安防监控、音频内容检索、医疗监护和机器人智能感知等领域中,为新型的人机交互方式和智能机器听觉系统提供了帮助。声音事件识别技术自上个世纪80年代初发展至今,各种特征提取方法和分类算法层出不穷,取得了长足的发展。并且自2006年起,CLEAR和DCASE等声音事件识别领域的国际竞赛如火如荼地展开,进一步推动了声音事件识别技术的发展。此外,近年来深度学习的出现,为声音事件识别技术的突破提供了可能。深度学习以深度神经网络为主要框架,并由此衍生出各类用于不同结构的网络,诸如卷积神经网络、循环神经网络和深度信念网络等,这些网络功能不同,被应用于各个领域,并取得了巨大成功。因此,本文主要围绕多种深度学习模型来展开对声音事件识别技术的研究,通过利用各类不同结构的深度神经网络,对声音事件样本进行信息提取和表征学习,进一步提升声音事件识别系统的识别准确率。研究内容主要为以下几方面:首先,对基于循环神经网络的声音事件识别方法进行了研究。通过分析了循环神经网络存在的缺陷——梯度消失和梯度爆炸问题,引出了用于解决此类问题的改进型循环神经网络,例如LSTM和GRU。基于声音事件识别的特点,对声音事件音频样本进行分帧处理,并提取其MFCC作为特征,再结合GRU为分类模型构建了基于循环神经网络的声音事件识别系统。与多种传统模式识别分类算法进行了实验对比,结果表明,基于GRU的声音事件识别模型有效地利用了声音事件天然存在的时序属性,并通过循环层网络解决了长时间依赖性问题,提高了识别的准确率。其次,提出了一种改进的多尺度卷积神网络模型,并将其用于声音事件识别中。传统栈式堆叠结构的卷积神经网络存在缺失低层次特征表示的问题,针对这一问题,通过将网络中的所有卷积层的特征图连接在一起,并利用CCCP层对底层特征图进行通道降维,使得网络最终提取出的特征包含来自各层的特征,从而最大程度上保留了特征信息,构成了多尺度卷积神经网络。此外,对声音事件音频样本提取梅尔频谱图及其时间轴方向和频率轴方向的一阶和二阶差分频谱图,组成多通道梅尔频谱图作为输入特征。在ESC和TUT数据集上的实验结果证明,利用多尺度卷积神经网络结合多通通梅尔频谱图能有效地提取并融合各层次的特征,从而提高识别准确率。最后,提出了一种基于深度卷积生成式对抗网络的声音事件数据增强方法。首先从数据集中提取出的各类SIF特征,并构建了DCGAN网络用于学习此类SIF特征,从而批量产生类似的伪样本。之后利用伪样本在SVM超平面中的距离和在CNN中的判别概率选择质量较好的伪样本,进行数据增强以提高模型的性能。此外,借鉴了对抗训练的思想,在数据增强的同时,加入一些质量较差并在类别分辨上具有模糊歧义的伪样本,用于提高模型的稳定性与鲁棒性。频谱图、多通道梅尔频谱图以及GBVS显著图等特征被用于实验中,在ESC和TUT数据集上的多个特征对比实验以及模型对比实验证明了该方法能有效地提高声音事件分类模型的性能。
其他文献
随着社会环境的不断发展变化,高校学风建设面临越来越多的问题。在学风建设中充分发挥教务秘书的作用,将对学风建设起到有效的促进作用。本文从学风问题的表象入手,全方位分析了
颗粒表面包膜是目前发展的一种新技术,它通过从微观对颗粒进行包裹来改变其有关性能,进而改变材料粉体和块体的宏观性能.目前这项技术在材料改性领域广泛应用.无机膜近年来发
强化央行监管的几点建议戴福禄,宋云利1.增强中央银行的权威性。目前,我国的中央银行的权威性、独立性还未完全建立起来,难以排除来自各方面的行政干预。因而宏观调控乏力,难以真正
目的:探讨帕罗西汀联合催眠疗法治疗强迫症的临床可行性。方法:2014年1月-2016年4月门诊就诊强迫症20例患者,在自愿选择方案的情况下分成2组,帕罗西汀联合丁螺环酮组(11例)及
当前,国家把风电场建设纳入发展生态能源之列。在风电场建设的高速路上,只有将风电场机电设备安装的质量与施工质量融合才能让整个建设工程保质保量完成,同时最大化的节约项
期刊
探讨了DLL木马的危害性,提出了如何发现这种木马的方法以及清除这种新型木马的措施。
随着高等教育的快速发展和国家对高等教育产业的大力支持,很多社会资金进入了高等教育领域,建立了以职业技术教育为主的民办高校。民办高校的资金来源较为复杂,呈现出以企业投资
本文通过典型案例,从关怀生存状态逐步深入到持续发展关爱贫困生,通过“三维、四点、四结合”模式探索,促进挫折负面消极影响向正面激励作用转化,有效提升他们的综合成长力和社会
当公司、股东的合法权益受到侵犯时,股东代表诉讼制度是一种重要的司法救济权利,但我国公司法尚未对此作出明确的规定,从而在实践中产生了许多亟需解决的问题。文章从股东代