基于注意力机制的声音场景深度分类模型研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：lqlq2323

【摘要】

：

通过分析声音使得设备能够理解设备所处环境是机器听觉研究领域的主要目标,机器听觉是一个涉及到计算听觉场景分析的研究领域。机器听觉系统需要执行与人类听觉系统类似的处

【作者】

：

夏子琪

【出处】

：

浙江大学

【发表日期】

：

2018年期

【关键词】

：

声音场景分类深度学习模型注意力机制迁移学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过分析声音使得设备能够理解设备所处环境是机器听觉研究领域的主要目标,机器听觉是一个涉及到计算听觉场景分析的研究领域。机器听觉系统需要执行与人类听觉系统类似的处理任务,是诸如机器学习,机器人技术和人工智能等相关领域的更广泛的研究主题中的一部分。声音场景分类问题,是从属计算听觉场景分析的一个子问题,也是其中最困难的任务之一。人类可以感知到自身所在的声音场景,如繁忙的街道,办公室等,并能够识别其中的独立声音事件,如汽车经过,脚步声等。声音场景分类任务的目的之一就是要模拟人类分辨声音场景的能力:给定一段音频,对音频所记录描述的声音场景进行分类。可穿戴智能设备、智能家居日益融入到人们的日常生活中,通过声音感知环境可以让这些设备更智能地服务于人,因此声音场景分类问题也受到越来越多的关注。对于声音场景分类问题的研究,本文设计了一系列深度学习模型包括卷积神经网络,递归神经网络,双线性模型以及胶囊网络模型,其中基于注意力机制的卷积神经网络模型,平均分类准确率达到87.9%,与声音场景分类研究领域的大规模挑战赛DCASE2016所有提交的结果相比,在单模型上优于最好成绩86.4%,是在声音场景分类问题中,注意力机制的首次尝试。为了进一步开发利用深度学习方法的优势,利用超大数据集预训练模型,运用迁移学习技术,弥补声音场景分类领域训练样本不足的缺陷,在注意力机制模型的基础上设计了基于迁移学习的深度卷积神经网络模型,准确率达到90.3%,超过DCASE2016挑战赛第一名(89.7%)。

其他文献

芳香低聚酰胺的超分子多级自组装行为研究

超分子多级自组装是基于非共价键构建功能材料的一种有效手段。水溶液中的超分子多级自组装在构建具有生物应用价值的功能材料方向具有巨大的潜力。然而现有的水相超分子多级自组装主要着眼于如何利用非共价键实现管状等初级的自组装结构,缺乏利用初级自组装结构进一步构建更高有序结构的相关研究,特别是如何利用管状自组装结构构建二维有序的溶致液晶柱状相,甚至是具有三维有序的柱状晶体相。基于该研究现状,本文以芳香低聚酰胺

学位

超分子自组装多级自组装过程溶致液晶柱状晶体相同步辐射X射线散射

基于Illumina MiSeq测序平台分析长期不同施肥处理对黑土真菌群落的影响

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

长期施肥黑土真菌群落高通量测序

定向井压裂前的射孔方位优化设计

针对定向井压裂过程中破裂压力高、易发生裂缝转向等问题,基于坐标变换,建立了任意轨迹定向井的井周三维应力场计算模型。在此基础上,综合考虑原地应力、孔隙压力、井底流体

期刊

定向井破裂压力射孔方位优化设计现场应用directional well fracture pressure perforation orientati

县级融媒体中心成立后的新闻走向

目前 , 我国各县级融媒体中心建设处在初步发展阶段 , 抓好县级融媒体中心建设,是统一思想认识,凝聚社会共识的迫切要求,也是提升基层媒体传播力的现实途径。县级融媒体最贴

期刊

融媒体中心新媒体新闻走向

建筑结构控制下的油藏属性建模

以胜坨油田二区沙二段3^4层为例，结合建构要素解析与随机建模理论，重点研究建构要素控制下的油藏属性建模，以进行油藏类型细分及研究剩余油分布规律。通过对7口取心井观察，结合岩

期刊

河流相构型要素分析变差函数随机建模fluvial tacies architectural-element analysis variation f

对皮下脂肪层较厚产妇不缝合剖宫产腹部横切口皮下脂肪层的效果

目的探讨对皮下脂肪层较厚产妇不缝合剖宫产腹部横切口皮下脂肪层的效果。方法选取2017-10-2019-01间行腹部横切口剖宫产的187例皮下脂肪层较厚的产妇,依据不同切口缝合方法

期刊

腹部横切口剖宫产术切口皮下脂肪层切口甲级愈合

永磁向心轴承承载能力与刚度的计算

目前，尽管磁浮轴承技术的研究与开发应用已经受到国内外学者的广泛重视，但在永磁向心轴承载能力的研究方面，却还存在着两个尚待解决的问题：一是将环形磁体作为无限长条形磁体处理

期刊

永磁轴承轴承承载能力轴承刚度磁荷面密度数学模型

艾灸对晚期胃癌患者癌性疼痛缓解及生命质量的影响

目的探讨艾灸对晚期胃癌患者癌性疼痛缓解及生命质量的影响。方法选择2016年2月至2017年1月收治的晚期胃癌患者96例,根据随机数字表法分为试验组和对照组,各48例。对照组采用

期刊

晚期胃癌艾灸癌性疼痛生命质量

影响方便面粘稠体汤料包装质量的因素

对影响方便面粘稠体汤料的包装质量的因素做了探讨 ,并对包装质量的检测做了说明。

期刊

粘稠体汤料包装质量因素

经贸翻译报告——以 The Shanghai Open 的汉译为例

The Shanghai Open 是一篇选自《经济学人》(The Economist)杂志经贸板块的文章,其中主要论述了中国、美国和英国的股市地位转换,并阐述了由此反映的国家地位变化。该文章是

期刊

经贸翻译翻译原则《经济学人》翻译技巧

基于注意力机制的声音场景深度分类模型研究

与本文相关的学术论文