基于稀疏表示和深层神经网络的音频场景识别研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:hawkzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频场景识别是指通过对环境音的理解来判断所处的场景,其在现实生活中具有广阔的应用前景,可以广泛用于多媒体检索、智能家居、智能机器人、安全监控、智能终端等领域,因而具有重要的研究价值。本文基于稀疏表示和深层神经网络对音频场景识别展开研究,提出了四种融合方法进行音频场景识别,具体研究内容包括:1)提出了一种前端特征融合方法对于音频片段内的各个音频帧,前端特征融合方法将基于稀疏表示求得的得分值特征和log-mel频谱特征进行融合,将特征融合后的音频片段作为DCNN网络的输入,通过DCNN网络进行音频场景识别。基于稀疏表示的得分特征从音频基空间的角度反映了场景类的分布,而log-mel频谱特征则反映了音频的声学特征,这两组完全不同的特征从不同的角度挖掘音频信息,两类特征互补,使得融合后的特征信息量大于每一类特征的单一信息量。2)提出了一种后端特征融合方法后端特征融合方法分别将基于稀疏表示特征求得的得分特征和log-mel频谱特征作为DCNN网络的输入,由DCNN网络提取深度特征,最后将两种深度特征融合后通过DCNN网络进行音频场景识别。后端特征融合方法的识别性能优于融合前的识别方法,且其性能整体上优于前端特征融合方法。3)提出了一种基于稀疏表示和log-mel频谱的决策值融合方法该融合方法分别将音频帧的基于稀疏表示特征求得的得分值特征和log-mel频谱作为DCNN网络的输入,然后将网络输出端的决策值通过元素乘法进行融合分类。该融合方法采用DCNN网络从稀疏表示特征和log-mel特征两个方面挖掘分类信息,融合后的决策值综合了两者的分类优势,因而和融合之前的决策值相比,具有更强的分类能力。4)提出了一种基于稀疏化的深度特征的决策值融合方法该融合方法分别对VGG16网络和LSTM网络提取的深度特征进行稀疏化,然后基于稀疏化后的特征分别通过VGG16网络和LSTM网络求取决策值,最后将决策值通过元素乘法进行融合分类。该融合方法能够综合VGG16网络和LSTM网络的分类能力,并利用稀疏编码的优势,取得比单一使用VGG16网络或LSTM网络更好的分类性能。5)对提出的四种融合方法进行了多声道融合对于立体声音频数据,本文将提出的融合方法首先基于左、右声道和单声道信号求得决策值,然后,为了充分利用数据各个声道的信息,通过元素乘法方法将基于各个声道信号求得的决策值进行融合分类。多声道融合能充分利用各个声道所提供的信息,因而能有效提高分类识别性能,和融合之前的左声道、右声道、单声道相比,多声道融合可以取得最佳分类识别结果。
其他文献
埋地管线系统是天然气运输的重要方式。由于跨越多种地质单元,管道与活动断层往往在空间上共存,因此管道的活动断层破坏风险不可避免。天然气破坏的另一个重大风险来自管道自
自中共十八大以来,习近平一直高度重视思想政治教育工作。以习近平为核心的党中央对高校思想政治教育作了一系列新的论述。它涉及了思想政治教育在人才培养中的重要性,以及如何加强高校思想政治教育等诸多问题。插画因其有趣的表现形式和丰富多彩的内容备受大学生的喜爱,大学生群体是当代接触插画作品最多的群体,插画作品对当代大学生的认知行为、道德取向和价值选择具有重要影响。然而传统的思想政治教育具有模式单一化、活动方
我国是苹果生产和消费大国,且苹果种质资源丰富,但是我国苹果产业品种单一,缺乏加工型苹果品种。因此培育出加工型苹果新品种对我国苹果产业和苹果深加工产业的发展具有重要
科技改变生活。如今,在科技共享的主题下,跨国交流越来越频繁,语言因此成为一大阻碍。如何克服语言障碍,确保高效沟通成为研究的重点。本文是一篇模拟口译实践报告,首先对材料的背景信息、口译和同声传译的定义及发展、顺句驱动和信息重组策略的定义及应用的必要性进行阐述。以2019年谷歌开发者大会作为研究材料,以顺句驱动策略为主、信息重组策略为辅进行口译,从单词、短语、句子三个层面深入分析口译过程中在陌生词、介
在阅读过程中,读者不仅能够从中央凹获取信息,还能够从副中央凹获取信息,如副中央凹词的语音、语义和字形等信息,使得读者注视该词时的加工时间减少,这被称为副中央凹预视效应,副中央凹信息加工能力是影响读者阅读效率的重要因素。对汉语阅读的相关研究表明,读者能够从副中央凹词N+1中获取字形和语义信息,而对语音信息在汉字加工中的作用和发生阶段尚存争议。随着年龄的增长,老年人的阅读效率降低,出现阅读困难的现象,
单目人脸重建和人脸识别任务均是近几年计算机视觉领域火热的课题,本文将两个任务进行结合,希望解决人脸重建的可识别性的问题。本文首先对经典的基于单张人脸图像的人脸重建
随着经济全球化的发展以及经济与文化的密切交往,各国之间的文化交流越来越多,艺术方面的交流与学习也越来越重要,口译在跨文化跨语际交流中起着至关重要的作用。为了实现交流的目的,口译译员需要摆脱原文的形式,把握话语的实质和关键信息,建立实质性的沟通。因此,传达意义是口译的核心任务。探讨意义的传达过程可以为口译译员的培养指明方向,具有重大的理论和实践意义。本翻译报告的模拟实践采用了交替传译的形式,材料是哈
视觉搜索是人类进行视觉认知的重要组成部分。随着人口老龄化情况日益严重,老年人的社会参与度迅速提高。大量研究显示,老年人在简单视觉搜索任务中存在认知老化现象,但在现实生活中,老年人视觉搜索的应用场景更为复杂,如老年人手机APP界面的设计、购买商品时对比正品和赝品等等。因此我们引入比较视觉搜索范式,探讨在比较视觉搜索范式下搜索真实图片时青年人和老年人的眼动特征。实验设计:采用2×3×2的混合实验设计,
由于科学技术的快速发展和电子设备的广泛使用,电磁干扰(electromagnetic interference)已成为人们日益关注的问题。开发一个有效的电磁干扰屏蔽材料是解决电磁干扰的重要途
温室气体大规模排放引起的气候变化对全球的生态环境造成了巨大影响。二氧化碳是主要的温室气体之一,因此需将其捕获以稳定其在大气中的浓度。基于固体胺吸附剂的变电吸附法