论文部分内容阅读
本文主要关注的内容是如何实现音乐的自动识谱。识谱是指音乐倾听者在听音乐的过程中,识别该音乐的乐谱信息并记录下来的过程;所谓的自动识谱指的是计算机扮演音乐倾听者的角色,完成上述分析和记录乐谱的任务。在自动识谱的过程中最重要乐谱信息是音符和所使用的乐器种类。本文的工作主要集中于自动识谱过程的音符识别和乐器种类的分析:●音符最重要的属性就是音高。本文在比较研究五种经典的音高提取算法后,提出基于生理声学的音高检测算法。本文通过比较分析五种经典的音高检测算法,包括HPS(Harmonic Product Spectrum)、Cepstrum、CBHPS(Cepstrum BiasedHPS)、最大似然(Maximum Likelihood)和自相关(Autocorrelation)算法,认识到为了进一步完善音高提取的准确度,同时为了能够满足大规模音乐分析系统的效率需求,需要具有较强抗噪声能力的算法,因此本文将效率较高的自相关算法应用到仿造人耳听觉特性构造的临界频带,提出了基于生理声学的音高检测算法。该算法能够在既保证音高提取的较高时间效率,同时又进一步提高了音高提取的准确率。●在提取出音高之后,为了提高音符识别的准确度,本文提出了音高和音值相结合的互纠算法。在目前的音乐分析领域中,尚没有非常好的专门针对音符音值的检测算法,而广泛采用的起始点(onset)检测算法又不能理解音符的物理含义,故无法准确定位音符的起始和终止点(offset),因此本文提出了将音高提取和音值检测结果相互对照和纠正的算法,故称为互纠算法,其结果能在一定程度上提高音符识别的准确度。●采用自下而上(bottom-up)和自上而下(up-bottom)相结合的思想,以音乐的流派(Music genre)信息来辅助识别音乐中所使用的乐器种类,本文仔细比较分析现有的音乐帧、音乐段特征后,选用八个具有最强分类能力的特征来构造贝叶斯网络分类器,其分类效果较之流行的神经网络分类器在准确率上取得了较大的提高。同时本文试验使用的音乐库包含了480首歌曲;其歌曲分别属于6个流派,即Jazz、Rap、Blues、Rock and Roll、Country Music、Cha Cha,具有一定的通用性。