论文部分内容阅读
自动音乐标注(Automatic Music Transcription)是指通过对音乐信号的自动化处理,将音乐从波形表现形式转换为电子乐谱表现形式。自动音乐标注技术广泛应用于音频内容检索、音频情景分析、音乐辅助教学、音乐可视化等领域。作为自动音乐标注的研究内容之一,多基频估计技术用于对同时发音的多个音符进行估计,但由于受到演奏乐器类别、演奏环境、演奏者的习惯以及音乐的复音个数不确定等因素的影响,目前的多基频估计方法还不能满足人们对音乐内容的理解需求,这也影响了自动音乐标注系统的性能,针对多基频估计方法的进一步研究显得尤为重要。本文以不同风格的电子音乐为研究对象,从方法效率和方法效果方面入手,主要针对自动音乐标注系统中的多基频估计方法做了分析与研究,同时对自动音乐标注系统中的系统模型结构以及音乐信号预处理方法也做了研究,其主要研究内容和创新成果如下:1.针对自动音乐标注系统中的预处理过程进行改进,将人耳听觉模型融合到音乐信号的标准化处理过程中,采用基于人耳听觉模型的音量均衡处理取代常规的按比例缩放信号幅度的归一化操作。该方法以人耳听觉模型为基础,首先将待处理的音乐进行整体的音乐声学扫描,分析其感知响度和峰值大小,通过一个具有和等响度曲线近似相反响应曲线的滤波器,计算出原始音量和标准音量之间的差别,以此对原始音量进行修正。实验表明,该方法能更有效的保留音乐信号的信号特性,减少由于信号强度不一致带来的多基频估计的误差。2.将乐音信号视作一种普通信号,利用普通信号的处理方法进行特征选择和提取,并以此进行多基频估计方法的改进。该方法首先利用基于人耳听觉模型的音量均衡方法对乐音信号进行预处理,然后选取信号的一种改进的Mel倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为特征参数,利用主成份分析方法对信号进行降维处理,最后将多基频估计问题转换成计算线性组合系数的问题,通过对线性组合系数的求解来完成多基频估计的目的。仿真结果表明,相对于直接利用STFT(Short-Time Fourier Transform,短时傅里叶变换)和MFCC作为特征的方法,该方法可改善对音符事件变化均匀的电子音乐的标注结果,同时,由于仅用了时频分析的方法,没有迭代过程,该方法具有更高的效率。3.从乐音信号的音色特性出发,针对基于乐音信号的声乐学特征进行多基频估计的方法进行改进。该方法将乐音信号视作一种特殊的声音信号,以音乐信号的谐波结构特征为基础,计算待识别信号和标准音符信号之间的谐波匹配程度,辅以迭代删除的方法来完成多基频估计的任务。该方法改进了迭代删除机制,取消候选基频选择,直接从最低频率的音符开始计算谐波匹配率,有效减少了频率重叠带来的影响。仿真结果表明,相对于基于候选机制的二次迭代删除方法,该方法可改善具有谐振特性的乐器演奏的且复音个数不超过五个的音乐的标注效果。4.提出了一种基于乐音的音色特性和时频特性的组合多基频估计方法。该方法将乐音信号音色特性融合到基于时频分析理论进行多基频估计的方法中,首先将信号经过基于人耳听觉模型的音量均衡预处理,在信号的前期分析阶段利用音乐信号的谐波结构特征进行候选基频筛选,在后续处理中利用时频分析的方法对筛选结果进行组合系数的计算,最终得到多基频估计的结果。实验表明,该方法可改善具有流行音乐风格的电子音乐的标注结果。5.提出了一种基于音乐类别信息和概率统计信息的多基频估计方法。该方法从统计学角度对多基频估计问题进行了研究,首先通过监督学习过程获取在不同类型的音乐中各个音符的出现概率信息,将之前方法的分类结果进行基于音乐类别信息和贝叶斯概率信息的筛选,从而改进多基频估计的效果。仿真结果表明,该方法对不同风格类型的电子音乐的标注结果都有改善。