基于端到端的钢琴音乐转写的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:bueryuyu33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐转写是将音乐音频信号转换为对应的曲谱或者mid序列。钢琴作为最主流的乐器,本文的研究主要针对最为复杂的复合钢琴音乐进行转写。随着相关音乐数据集的增多,基于深度学习的钢琴音乐转写的效果在主要的国际评测超出了基于信号建模(如建立显著度函数,信号分解)的方法,输入原始或者变换后的单帧信号,输出mid序列,本文称之为短时的端到端模型。本文的主要工作也包括两部分:结合音乐特性,基于已有的短时端到端模型进行改进,提出了更为高效的网络结构;其次提出了以和弦为建模单位的长时端到端框架。主要的创新点如下:1)提出了结合音乐特性的短时端到端建模的方法。针对短时端到端建模中缺少对音乐信号特性的考虑,首先分析了音符的频域成分的重要性,本文针对每一个音符训练一个二分类器。通过对输入特征和音符的统计分析,发现对音乐转写发挥主要作用的三个重要的特性:谐波特性、平移不变性和音符共现特性。并结合上述三大特性,在基于卷积网络(CNN)和循环神经网络(RNN)的短时端到端建模中提出更为合理的结构:由于音符的谐波结构离散的分布在频域,在时域上只是一种重复,同时因为音符的谐波结构具有局部平移不变性,共享的空洞一维卷积核更为适合沿着频域滑动提取特征;考虑到RNN难以搭的较深,提出基于双向的长短时记忆网络(BiLSTM)的残差网络对时域建模,在同等参数情况下,超过最好RNN模型10个百分点;通过分析共现音符的相关性和八度错误,提出了八度损失函数。最终相比于目前最好的短时端到端模型,在MAPS数据集上,本文的模型达到了 F1-meansure:0.80,超出了目前最佳模型结果3个百分点。2)研究了音乐的长时特性,提出了以和弦为建模单位的长时端到端建模方法。针对短时端到端建模以帧为建模单位,难以有效对乐理进行长时建模,提出以和弦为建模单位的长时端到端模型,其主要分为两大模块:和弦边界检测和和弦识别。和弦边界检测中,和弦边界定义为如果相邻两帧不一致则作为边界,对和弦边界之间的各帧进行标签加权缓解标签不均衡性;基于边界检测基础上,对单帧多基频检测结果进行下采样得到和弦序列,最后对和弦序列进行建模输出最终的和弦。最后译码时结合和弦识别结果和边界检测进行最终的译码得到mid序列。在MAPS数据集上,相比于短时端到端模型,F1指标可以提高1个百分点,同时最终转写结果更为紧凑连续。最终,本文对端到端音乐转写的模型分别对其短时和长时框架进行了研究,在公共数据集MAPS均达到了不同程度的提升。
其他文献
学位
进入二十一世纪以来,人类社会全面进入信息化时代,经济社会的各个方面的竞争都在加大,尤其是企业之间的竞争由原来的争夺物资资源慢慢转移到争夺人力,企业纷纷将人力资源作为企业发展成败的重要因素。越来越多的企业领导者都在加大对人力资源的掠夺,纷纷建立起现代企业人才发展战略。一方面加大了企业对于人才储备以及人才的引入投入,另外一方面,也加大了对企业内部人才的培训与开发。在企业的所有管理当中,绩效考核作为人力
本文以遗产税的基本理论视域为切入点,比较分析开征遗产税的国家的不同制度,以期进一步加强对遗产税基本理论问题的研究,从而为我国开征遗产税提供坚实的理论基础。同时结合
近年来,目标跟踪技术已成为计算机视觉领域的研究热点之一。基于孪生卷积神经网络的目标跟踪算法自被提出以来,就以兼顾速度与精度的优势吸引了大批研究者的关注。与此同时,该类算法仍面临诸多挑战,当实际环境较复杂时,易出现跟踪漂移或失败的现象。为进一步改善算法在不同挑战因素下的准确性,本文首先对算法的模板设置与搜索范围选取策略进行改进,提升了算法在快速运动、背景相似场景下的精确度。然而由于单特征提取网络结构
学位
波束成形是一种基于天线阵列的信号预处理技术,其基本思想是在特定方向上为信号提供阵列响应增益,同时抑制其他方向的信号。波束成形不仅可以增大通信覆盖范围、改善频谱利用率以及增加系统容量,而且拥有很强的抗干扰、抗衰落的能力。波束成形包括下行波束成形与上行波束成形。基于信干噪比(Signal to Interference plus Noise Ratio,SINR)设计的下行波束成形矢量需要联合优化,而
欧洲议会是欧洲联盟重要的组织之一,其全体会议中的辩论是非常重要的政治环节,也是欧盟决策的重要部分。议员通过辩论,说服所有受众认可其在某一争议题上的立场和态度,其本质是一种诉诸理性的论辩话语。当前学界关于欧洲议会全体会议辩论的相关研究主要从政治学视角展开,关注点是其中的党团派别,对其话语研究屈指可数。鉴于以上不足,本研究借用语用论辩学视角,对欧洲议会辩论话语中大量使用的“分类论证”进行论辩分析,并结
金融全球化的趋势使得外资银行在我国金融业中成为一个不可忽视的角色。外资银行的健康有序发展既可以为东道国吸引外国资本、提供优质的国际化金融服务,也有助于构建公平的
本文以胜利褐煤为研究对象,使用溶剂萃取和温和氧化这两种方法对煤样进行处理,利用FT-IR和TG-FTIR-GC/MS等表征手段对萃余煤、萃取物、氧化产物和氧化残煤进行分析,研究煤样在不同热解温度下的热稳定性,解析褐煤分子热解过程中的断键规律。综合元素分析、红外光谱分析、13CNMR分析结果,构建萃余煤大分子平均结构模型。得出的主要结论如下:(1)依次采用四氢呋喃、吡啶、甲苯/甲醇萃取胜利褐煤,四氢
学位