基于深层神经网络的音频特征提取及场景识别研究

被引量 : 0次 | 上传用户:djsnsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频场景识别(Audio Context Recognition)是人工智能领域重要的研究方向之一,该技术依据周边声音感知环境动态,对机器作出进一步智能选择有着非常重要的意义。近年来有较多的学者涉足这一研究方向,他们大多采用先特征提取后分类器分类的研究框架,其中,对如何提取能够反映音频场景声学特性的识别特征方面给与了较多的关注。所采用的声学特征可以粗略的分为两大类:短时特征和长时特征。短时特征如单音轨梅尔频率倒谱系数、多音轨梅尔频率倒谱系数、梅尔频率倒谱系数和稀疏特征的联合特征等;长时特征多为音频段的长时统计值或基于语义相关性的特征等。从研究结果上看,目前的声学特征都有其不足之处,短时特征往往不足以完整地刻画一个音频场景的特性,长时特征往往缺乏对音频段内部细节的描述,而长时统计值中缺失的内部结构信息对区分音频场景也有重用的价值。本文对既能反映音频段长时特性又能反映局部结构性的声学特征的提取方法进行研究,并验证了它们在音频场景识别任务中的有效性。深层神经网络能够通过自学习来发现适合分类任务的特征向量,这已经在图像尤其是自然图像的结构性特征分析方面得到了验证,这些特征提取方法能够很好地反映出图像的结构信息,相对于主观分析方法有着很大的优势。所以,本课题借助深层神经网络的特征分析能力在语谱图上进行场景长时结构性特征的分析与提取。主要研究内容如下:首先研究了基于卷积神经网络的音频场景特征分析提取方法,卷积神经网络通过卷积和下采样操作对输入数据进行非线性映射,最终通过重构误差的反向传播进行参数的调节,从而提取出能够刻画音频场景特性的声学特征。卷积神经网络在训练是以输入数据的类别重构误差最小化为优化目标的,所以训练过程需要大量的有标签数据。现实情况下,往往难以得到大量带标签的训练数据,因为对数据进行标注费时费力,所以本文也提出了基于解卷积神经网络的特征提取方法。解卷积神经网络模型在特征分析处理过程中不仅保留了卷积神经网络的卷积操作和下采样操作,而且还在原来的基础上有了些改进,其参数更新过程是基于对输入数据重构误差的反向传播进行的,这样就不需要带标签的数据。采用这种特征提取方法,音频场景数据的采集相对来说就较为容易,训练数据不足的问题就得到了很好的解决。通过实验验证,我们得到的结果是,采用基于卷积神经网络得到的音频特征,进行场景识别的性能有很大提升;基于解卷积神经网络分析得到的特征虽然对识别性能没有较大的提升,但是针对训练数据不足的问题它还是有效的。
其他文献
随着导航定位技术的快速发展与普及应用,复杂室内环境下的定位服务或应用已成为导航领域的研究热点。考虑到室内二维平面定位难以满足需求,本文以智能手机内置多传感器信息融
书是人类进步的阶梯,主要的精神食粮,影响着人们的精神世界,引导着人类的进步与发展。书店作为人与书会集的场所,有着传递知识、传播思想、普及文化、促进出版等重要的功能。
近年来并购成为许多大企业实现跳跃式发展的最佳选择,在全球几次并购浪潮的冲击下,中国企业做大做强也更倾向于并购的方式,医药行业也不外如是。医药行业是永远的朝阳行业,其
<正>异议登记是《物权法》第19条第2款规定的一种登记类型,它是为了解决更正登记程序较为费时,申请更正的权利人与登记名义人之间的争议一时难以解决,而由法律确立的一种对真
教务管理是大学里面极其重要的一个环节。随着计算机技术和网络技术的发展,以及招生规模的扩大和高校教学体制的不断改革,教务处的教务管理工作越来越繁杂,原有的教务管理模
日本主要通过在大学设立"产学合作"研发机构、政府深度参与产学合作、设立中介机构等措施实现其"产官学合作"。日本的"产官学合作"地域性很强,有效发挥了中介机构的桥梁作用,
公司债权人保护问题一直以来为人们所关注。传统公司法中建立在严格的资本制度之上的资本信用理念,非但不能给债权人提供有效保护反而束缚了公司的发展。2014年新公司法改革
<正>奇香麻酱汁奇香麻酱汁是用很常见的调味料——芝麻酱,与香菜、香葱等调制而成的,具有香味奇特、食不糊口的特点,主要用于凉拌菜和做炸制菜的味碟,如麻
情商教育作为育人的内容之一已成必然。本文阐述了情商理论的内涵和情商教育的重要性,并提出高等学校情商教育的几种重要途径。情商教育可为大学生终身可持续发展打下坚实基
<正>商业创新并非拍脑袋一蹴而就的幸运之举,而是由存在的旧模式与新模式相衔接的产物。近期最热门的专车服务不是刚刚抱团的滴滴、快的,而是外来客优步(Uber),不过用户们热