基于神经网络的架子鼓音乐自动转录算法的研究与实现

来源 :徐天宇 | 被引量 : 0次 | 上传用户:hh227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐可以陶冶情操,提高生活品味和个人气质。随着生活水平的提高,人们学习架子鼓演奏的热情不断高涨,兴起了架子鼓教育的热潮。架子鼓音乐自动转录(Automatic Drum Transcription,ADT)技术是指从音频信号中检测得到鼓的音符事件,可以用于自动乐谱生成或自动演奏识别,帮助架子鼓初学者提高学习效率。一个健壮的ADT系统在鼓自动化教育和音乐智能娱乐软件中扮演着重要角色。但是实现一种精准的架子鼓音乐自动转录算法仍然是一个具有挑战性的问题。针对架子鼓音乐自动转录的问题,本文研究并实现了一种基于卷积神经网络的架子鼓音乐自动转录算法,在此基础上设计了不同的算法优化策略。本文的主要工作包括:(1)设计并实现了一种基于卷积神经网络(Convolutional Neural Network,CNN)的鼓转录算法。采用短时傅里叶变换(Short-Time Fourier Transform,STFT)和梅尔滤波的方式提取声音信号的时频信息,然后经过CNN处理,最后使用峰值检测算法分别检测各个鼓组件的音符起始事件。(2)针对神经网络泛化能力不足的问题,提出了一种基于标签增强的训练方法。使用联合音轨信息和鼓类别信息的标签训练模型,通过自蒸馏的方式有效提升了神经网络的识别能力。(3)针对卷积神经网络编码能力有限的问题,设计了一种适用于架子鼓音乐自动转录的内卷神经网络模型,实验对比了与其他神经网络模型的转录能力。(4)针对开放语义的鼓转录问题,实现了一种基于小样本学习的关系网络模型,对比分析了模型分别在封闭语义和开放语义的转录能力。(5)基于上述鼓转录算法,设计了架子鼓识谱应用,验证了转录算法的有效性。测试表明,与目前基于神经网络的架子鼓音乐自动转录算法相比,本文所提出的算法在通用数据集的结果具有最高的平均F1值,为实现架子鼓智能辅助教学软件提供了核心算法支持。
其他文献
随着网络通信技术和家用路由器的发展,越来越多的网络智能设备需要接入家庭网关。目前家用路由器的网络流量控制主要基于Linux内核实现,在网络接口发送数据包之前进行流量控制,存在缺少全局管理、流量整形策略单一、原有机制繁琐复杂等问题。本文基于Linux内核,设计并实现门槛低、通用性较强的网络流量控制功能,在实际场景中提升家用路由器网络服务质量,为用户提供更好的上网体验。本文首先介绍网络流量控制在家用路
学位
随着物联网的大规模部署,频谱资源变得愈发紧张,节点数目的爆发式增长使得为节点更换电池逐渐成为一项具有挑战性的任务,废弃的电池若处理不当很容易造成环境的污染。环境反向散射无源物联网不需要设置额外的射频源,节省了宝贵的频谱资源,节点具有从周围环境射频信号中采集能量的能力,摆脱了对电池的依赖,从而能够快速推动物联网的大规模应用。网络中的多个节点在传输数据时可能存在数据冲突问题,在无源物联网中同样如此。介
学位
本文的研究目的,就是设计出能在特定频段实现电磁透明的宽带天线。为了降低散射效应,在普通天线的偶极子上加载缝隙。通过引导和抑制高频感应电流,使偶极子产生的散射波相互抵消,同时幅度有所弱化。最终,散射电磁波将所剩无几。在偶极子的表面,U形槽加载的方式非常关键。无论是感应产生的高频电流,还是巴伦激励的低频电流,这些电流在偶极子表面的分布会受到U形槽加载的影响。在工作频带内,除了交叉偶极子提供的两个谐振点
学位
随着城市化的快速进程,密集的建筑形态改变了城市地表的空间结构,极端的人工环境引发了一系列气候环境问题,人类生态系统遭受前所未有的压力。而我国沿海湿热地区城市发展迅猛,所呈现的城市形态与气候条件的冲突愈演愈烈,造成了建筑能耗的大幅增加。另一方面,快速增长的人口与学位紧缺直接导向了校园增量建设与可建设土地不足的矛盾,高密度城市区域与校园空间也将影响校园热环境。而小学建筑相较于居住建筑,其体量、布局与空
学位
目前,除了历史文化名村与传统村落外,仍存在大量未法定保护但也具有文化价值与时代意义的村落,然而随着现代化建设节奏不断加快,开发建设往往忽略其中的历史文化要素,选择推倒重建。若此类村落不存在了,被保护的村落成为活标本,也不是未来发展的良好选择。一方面,此类村落发展是前提,需要自我经济平衡,具有开发重建的诉求;另一方面,文化资源类型丰富,全部拆除将造成不可弥补的遗憾。其实文化与经济是不冲突的,如何规划
学位
本翻译实践报告基于比利时语用学家维索尔伦(Verschueren,1995)提出的顺应理论,对儿童文学小说作品《笑猫日记:保姆狗的阴谋》第1章至第12章的内容进行日语翻译并对翻译工作展开研究。《笑猫日记》是儿童文学作家杨红樱的日记题材系列作品,以主人公笑猫的第一视角展开叙述,讲述了笑猫和家人朋友们的有趣经历和冒险故事。第一部《保姆狗的阴谋》讲述了保姆狗出于嫉妒心理,多次陷害善良的牧羊犬,最终自食恶
学位
香精香料与人民生活水平的提高、食品工业的发展密切相关,其中芳香族醛酮类香料化合物在香精香料领域占有关键地位。随着人们对产品安全意识的增强和健康理念的崇尚,大众更加青睐于通过物理方法从动植物原料中提取或者是通过生物法合成的天然香料。与传统的提取法和化学合成法制备芳香族醛酮类香料化合物相比,生物酶催化法具有专一性强、催化效率高和环境友好等特点,且基于生物酶催化法的级联反应允许在一个反应体系中进行连续多
学位
目标语音和噪声来自不同方向时,听者可以利用它们的双耳声线索的差异产生空间掩蔽释放(spatial release from masking,SRM),提高语言可懂度。这种掩蔽释放是相对于噪声和目标语音来自相同方向而言的。双耳时间差(interaural time difference,ITD)是重要的双耳声线索之一,ITD的变化可能会对噪声中的语言可懂度造成影响,不同听者对ITD利用的能力也可能存
学位
多输入多输出(Multiple-Input Multiple-Output,MIMO)技术是4G/5G乃至未来无线通信的重要技术之一。随着天线数目的增多,通信系统的频谱利用率大大提高,通信质量得到了极大的改善。但与此同时,不同天线间信号受到的干扰也会随着增多,这大大提高了信号检测的难度,也提升了检测系统的复杂度。因此,研究高准确性低复杂度的MIMO信号检测算法意义重大。本论文对基于长短期记忆(Lo
学位
声源定位技术是语音信号处理领域的重要组成部分,受到研究者的广泛关注。对于麦克风阵列声源定位的研究主要集中在大孔径的固定阵列上,但近年来随着消费电子的发展,无线耳机、AR眼镜等带有小型麦克风阵列的嵌入式设备越来越普及,其采样率有限、孔径小、阵列间距不固定等特点导致了声源定位的精度有限,影响了实际的使用体验。为了解决上述问题,本文针对无线耳机设备的特点,搭建双麦克风阵列模型,对声源定位问题展开研究,提
学位