基于卷积神经网络的声学场景识别算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pazixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境声音承载着大量有关日常环境和物理事件的信息,开发自动提取并分析这些信息的技术在一些应用中具有重要意义。它可以使各种便捷设备更加智能化,可以应用于军事、刑侦等领域。传统的声学场景分类器如支持向量机、高斯混合模型、隐马尔可夫模型和K近邻模型已经不适用于复杂的多分类任务,需研究新的技术提高识别率。深度神经网络模型可以拟合任意非线性任务,而在众多深度神经网络当中,卷积神经网络发展迅速,应用最为广泛,所以本文采用卷积神经网络作为分类器。本文基于经典的卷积神经网络如Alex Net、VGGNet、Res Net设计了Alexish、VGGish、Resish三种网络结构。其中,Alexish保留了Alex Net的特点并做出了改善,把Alex Net中的局部响应归一化改成批标准化,不仅加快了训练速度还增强了泛化能力。6层Alexish网络结构对10个场景分类识别率最高达到67.6%。VGGish网络把VGGNet网络的第一层全连接层改为全局平均池化,在不影响准确率的前提下减少运算量。9层双通道VGGish网络结构最高识别率为71%。Resish借鉴Res Net的跳接机制在VGGish基础上构造出18层的Resish网络结构,识别率达到71.4%。在声学特征提取方面,本文采用梅尔对数谱及谐波冲击源分离梅尔对数谱两种声学特征。梅尔对数谱充分考虑人耳听觉的非线性特性,谐波冲击源分离方法考虑了音频自身组成特点。实验结果表明,基于谐波冲击源分离的梅尔对数谱声学特征可以使网络得到较高的准确率。另外,为了充分利用音频两通道间的差异性,分别提取音频左右声道(左声道和右声道)、左右声道相减结果及左右声道相加结果作为双通道网络输入,经过卷积神经网络提取特征后再进行特征联合进行分类。实验结果表明,双通道网络特征联合方法的识别率比单通道特征方法高。为了进一步提高准确率,本文利用不同模型对不同场景识别敏感度的差异性,提出通过集成学习方法结合多个卷积神经网络模型以形成一个强分类器。最终本文利用Bagging综合7个卷积网络模型并采用相对多数投票的结合策略对10个声学场景进行分类并获得74.7%的准确率,比2019年声学场景事件检测及分类大赛基线系统准确率高出12.2%,有效提高了声学场景识别准确率。
其他文献
骨骼肌是维持人体姿态、实现人体运动的重要生物组织,因此对于肌肉输出力的估计在体育训练、康复工程以及医疗辅助器械领域具有十分重要的意义。肌音信号(MMG)是肌肉收缩时产
Thermochromatium(Tch.)tepidum为嗜硫的紫色光合细菌。光反应中心是由光反应中心RC(Reaction Center)和捕光色素蛋白复合体(light-harvesting)组成。紫外光谱扫描在915 nm处
随着大数据技术的快速发展和网络在日常生活中的广泛应用,信息搜索在网络发展中的作用越来越突出。图像检索技术作为信息处理和人工智能领域的热点问题,图像检索技术越来越受
企业数据中心多方案决策既要使方案重要参数和成本之间的关系得以体现,得出性价比合理的决策结果,又要使方案决策过程科学合理。那么,如何实现这样复杂的多方案决策呢?这一直
超材料吸波体是一种亚波长的人工复合吸波结构,具有电磁特性可设计、吸收率高、厚度薄等优点,在雷达、传感、隐身技术等应用中扮演着重要角色。由于超材料的谐振机理,大多数
随着移动网络的迅速发展以及使用的普及性,个人和组织的存储设备无法满足日益增长的数据存储需要.同时,云存储具有低消耗、方便快捷访问的优点,所以云存储被个人和组织广泛使
信托滥觞于英国,兴盛于美国,因其精巧的设计制度和实践魅力,大陆法系国家也纷纷引进。尤其在金融领域,信托愈加受人们青睐,各种信托品种可以说形形色色,是金融服务业的重要组
云计算作为当前互联网技术的集大成者,在分布式计算、数据存储等多个领域均有极大的优势。但是随着云计算的普及,云中服务器的资源利用低的问题逐渐凸显出来,为此部分云服务
创新是促进经济高质量稳定发展、加快新旧动能转换、提升综合国力的关键因素。近年来,国家高度重视创新发展,强调各个领域要重视科技创新。对企业而言,积极推进企业研发创新
汶川大地震,震痛整个中国。痛定思痛,在突发性灾害面前,如何应用新技术新方法来科学地防灾减灾,意义重大。无人化施工系统技术是山地灾害频发的日本国在山地灾害领域中应用的