基于深度学习的危险声音检测技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dl121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今在人们的生活中充斥着各种声音,其中一些声音是危险事件的反映,例如爆炸声、枪声、尖叫声等,对人们有危险警示作用,因此危险声音检测有着潜在的应用价值。近年来危险声音检测得到越来越多专家学者的研究,已经逐渐成为音频信号处理中的一项重要内容。目前对其研究大多停留在使用人工选择特征和传统的机器学习方法,例如MFCC特征、支持向量机,高斯混合模型等,这些方法面临着难以选择良好特征和解决复杂分类的问题。尽管当前也有部分研究尝试使用深度学习方法,但是它们设计的网络模型大多结构单一、层次简单,可迁移性较差。本文对基于深度学习的危险声音检测方法进行了研究,设计了多种网络模型,对比使用传统方式的基线系统,逐步提高了危险声音检测准确率。本文主要工作内容和创新如下:(1)阐述了深度学习的基础理论知识,设计了基于特征表示和分类的危险声音检测框架,依据框架搭建了基于传统MFCC特征和GMM模型的声音检测基线系统。对该系统在本文统一的危险声音数据集上进行开发和测试,获取训练与测试两组检测准确率分别为77%和68%。可以看出该方式能初步胜任危险声音检测任务,将其作为后文检测系统的对照组。(2)设计搭建了基于深度学习模型的危险声音检测系统,选择64维的对数梅尔谱图作为输入特征,分别设计了DNN模型、CNN模型、混合模型并将其作为分类器。DNN模型使用了3个隐藏层,激活函数选用ReLu函数,为了防止训练过程过拟合,添加了Dropout层。CNN模型是对VGG-16的修改,为了防止过拟合,网络中除了添加Dropout层,还使用了BN机制。考虑到声音数据的时序性,混合模型主要使用CNN加RNN的方式实现,其中CNN部分是对CNN模型的修改,RNN部分选用普通RNN和LSTM。将该系统在本文数据集上进行开发和测试后得到检测结果,使用DNN、CNN、C-RNN、C-LSTM模型的系统危险声音检测准确率分别为74.5%、86.2%、90.0%、91.6%。可以看出使用深度学习模型和对数梅尔谱图特征的系统具有良好的检测效果,且检测准确率比基线系统均有较大的提升。比较三种深度学习模型可以看出,混合模型要比单一DNN,CNN模型具有更高的检测准确率,而且C-LSTM的检测效果也比C-RNN略有提升。
其他文献
物理概念的学习和教学是物理教育研究的一个重要研究方面。然而,物理概念教学也是中学物理教学实践中遇到困难最多的部分,因此物理概念的学习和教学研究是极其必要的。从教育
目的:研究β-catenin、β-TRCP在肝细胞癌和癌旁组织中的表达特点及相互关系。方法:β-catenin和β-TrCP的表达是用免疫组化方法在石蜡包埋的肝癌和癌旁组织切片进行染色。结果
在6月底贵阳召开的全国工程建设优秀QC小组活动成果交流会上传来好消息.三航局江苏分公司的三个QC小组表现优异,取得了良好的成绩,其中缅甸皎漂项目部的“提高大圆筒沉箱安装的
音频事件检测是一种检测音频事件类别及其起止时间的技术,它在安全监控、生物多样性保护、多媒体检索推荐和场景感知等民用与工业领域中有着广泛的应用。在现实环境中,音频事
本文介绍了S6公路2标防撞墙的施工,通过防撞墙模板和操作平台的设置,解决了防撞墙墙体不设对拉螺杆的难题,总结了防撞墙一种新的施工方法。
事业单位是不以营利为目的,向社会提供服务,主要从事科、教、文、卫等社会服务。在为社会提供公益服务的过程中,完成既定的工作任务成为考核的重点,从而忽略了项目本身预算管
1工程概况京沪高速铁路联络线特大桥共有66孔框架桥及21榀门式墩盖梁采用支架现浇施工工艺,工期仅2个月。其中虹桥高速动车进段线框架桥现浇顶板混凝土横桥方向最大跨度为21m
你对本本的声音是否感到满意?先别责怪本本上的喇叭质素不佳,试想想要在本本那么狭窄的空间里面塞进喇叭,还想要它发出天籁之音,是否有点强人所难呢?要直接提升本本音质,其实外
目的:分析细支气管肺泡癌的胸部CT和HRCT的影像学特征,提高肺泡癌的诊断水平。方法:对经病理组织学确诊的23例肺泡细胞癌的临床症状、胸部CT和HRCT的影像学特征进行回顾性分析。
目的:回顾性分析三维适形放射治疗残胃再发癌的近期疗效。方法:采用多叶光栅技术,10MV-X线,5-7个共面或非共面固定射野。90%等剂量曲线包绕靶区并以该等剂量线作为处方剂量,边缘剂