基于深度学习方法的环境声音识别

来源 :福州大学 | 被引量 : 2次 | 上传用户:wyakl1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境声音识别通常采集环境中的音频数据并对其进行分析和识别,从而达到对环境感知的能力。它在音频取证、声源定位与分类、声音事件检测和场景识别等领域都具有重要的意义。本文针对自然环境下动物声音识别受到非平稳的噪声干扰及复杂声音场景识别问题,提出使用栈式降噪自编码器(Stack Denoise Auto-encoder,SDA)的声音增强算法、卷积神经网络(Convolutional Neural Networks,CNN)结合随机森林(Random Forest,RF)的声音场景识别方法。本文的主要内容如下:(1)声音增强算法。针对自然环境中各种非平稳背景噪声对声音特征干扰,传统方法无法有效滤除噪声成分,提出使用多信噪比混合的声音数据增强方式结合多层卷积结构的SDA模型进行训练,使带噪信号的声谱图可以滤除噪声的成分。首先,使用纯净声与环境中的噪声以不同的信噪比进行混合、并对混合后的声音信号进行gammatone声谱图生成;接着,将带噪声音信号的声谱图作为SDA的输入,让其有监督地输出纯净声的声谱图。(2)声音场景的特征提取。使用Mel能量谱结合CNN对高维声谱特征的自主学习能力来提取声音场景的特征,在CNN模型进行训练后截断全连接层输出来提取CNN中间层特征。主要步骤如下:首先,对声音场景进行短时傅里叶变换生成短时功率谱,对短时功率谱使用Mel滤波器组进行滤波生成Mel能量谱;然后,对Mel能量谱进行窗移得到片段样本集;最后,使用片段样本集对CNN完成两阶段训练并得到其权重,将CNN全连接层的输出作为表征该声音场景的特征。(3)声音场景的识别与分类。针对传统的CNN模型使用的是softmax分类器、其抗噪性能较弱且容易过拟合等现象提出使用RF分类器对CNN全连接层的输出值作为特征进行分类。首先,对CNN载入训练好的权重,截断CNN的全连接层输出,将其作为随机森林的训练特征集。然后,使用该特征集构建决策树,形成随机森林;测试时,将随机森林的投票结果作为预测结果。本文提出在自然环境下的动物声识别中使用基于SDA的声音增强算法以及在DCASE2016提出的声音场景识别问题中采用Mel-CNN-RF的识别方法。在相关的实验结果和分析中,表明了本文使用的深度学习方法在环境声音识别中的有效性。
其他文献
为找到一种简便快捷的土壤重金属污染定量化监测方法,本文利用TM遥感影像的各波段光谱反射率、9种植被指数、4种地面辅助因子和80%样点土壤重金属含量实测值建立线性回归预测
目的观察贝美前列素治疗眼球钝挫伤后继发性青光眼(或外伤性高眼压症)的疗效,探讨其可能的降压机制,尤其是当其他抗青光眼药物疗效不佳时,即使高眼压对同类前列腺素衍生物类
目的:评价呼出气一氧化氮检测(FENO)在慢性咳嗽诊治中的应用价值,总结诊断经验。方法:以2013年8月~2014年7月,合肥市第一人民医院呼吸科门诊收治的128例慢性咳嗽患者作为研究
长期以来,我国铁路客运站一直存在中转旅客重复进出站、换乘极为不便的问题,而且没有得到足够的重视,大大降低了铁路客运特别是高速铁路客运的服务质量和效率。文章通过对当
目的:长链非编码RNA(Long non-coding RNA,lnc RNA)在基因调控中起重要作用,目前它对儿童急性白血病(Acute leukemia,AL)发病机制的影响尚不清楚。本研究采用微矩阵基因芯片技术,
小学语文教学中存在着诸多问题,陶行知教育思想对解决这些问题有着很好的启示作用。在陶行知的生活教育思想中有着很多的闪光点,诸如"生活即教育"、"教学做合一"等,这些观点
目的应用星点设计-响应面法筛选川党参产地加工炮制一体化最佳工艺。方法以总黄酮、党参多糖、党参皂苷及党参炔苷的总评归一值为指标,利用星点设计响应面法,对切片含水量、
胆红素是衰老红细胞破坏降解的终产物。近年来的研究发现它是内源性抗氧化剂,具有抗动脉粥样硬化、清除自由基、保护机体组织器官的作用。其与缺血性脑卒中相关性的研究越来
酒令,是我国封建时代士大夫阶层闲情逸致生活情趣的产物,是封建时代慢节奏生活方式派生的文化形态现象,也是广泛流传民间的民俗活动.它的基本功能是为人们饮酒助兴服务,但也