论文部分内容阅读
近年来,光学乐谱识别逐渐受到国内外学术界的关注。尽管在谱线检测与删除、乐谱分割、音乐符号分类等方面已取得一些进展,但目前的乐谱识别效果还不够理想,尤其是手写乐谱的识别,其识别速度及准确率仍有很大的提升空间。本文对手写和印刷乐谱图像的自动识别进行了系统的研究,在谱线检测与删除、音乐符号分类、音乐乐谱识别系统的建立等方面取得了一系列进展,并提出了一些新的思路和方法。 论文完成的主要工作如下: (1)提出了预选择稳定路径谱线检测方法,通过计算连通分量,来将谱线组周边大面积空白以及文字区域去除,使计算稳定路径的区域锁定在谱线组范围内,从而提升谱线检测速度。该算法在保持了稳定路径方法抗噪声能力强的这一原有优势的同时,弥补了其运行时间过长的不足。经测试,该算法对弯曲、不连续、以及倾斜的谱线鲁棒性很好,而且计算量降低三分之一甚至更多,有效解决了现有方法存在的抗噪性和计算时间长之间的矛盾。 (2)根据音乐符号的多样性和多态性特点,提出了一种基于集成神经网络的音乐符号分类方法。该方法将三个不同的多层感知模型组合,根据符号的不同形状确定三个模型的输入图像大小,然后对得到的三个分类结果进行投票,得出最终的类别,从而大大减小了分错的几率。同时,针对乐谱识别领域数据库的欠缺状态,本文建立了一个标准的音乐符号分类数据库,该数据库包含了20类手写符号和20类印刷符号,对今后的音乐符号分类算法评估具有重要的意义。 (3)提出一种基于有向无环图——大间隔分布机的手写音乐符号分类方法。该方法利用有向无环图结构将现有的二类分类器大间隔分布机拓展到多类,建立了基于大间隔分布机的多分类模型。我们对N类音乐符号训练N(N-1)/2个分类器,N类音乐符号的顺序依照其特征合理排序,从而防止了有向无环图结构的错误累积效应。实验表明用这种有向无环图结构解决多类分类问题的效率更高,速度更快,同时,该算法在识别手写音乐符号时效果优于其他主流分类算法。 (4)针对各类样本数目相差比较大的情况,提出了不平衡大间隔分布机。该算法在最大化样本分布的均值和最小化其方差的同时添加了误分惩罚系数,使得分类面逐渐向多类样本靠近,从而提高少类样本的分类准确率。不平衡大间隔分布机有效地解决了乐谱图像中各类音乐符号样本数量悬殊导致的分类效果低下的问题。实验表明,随着惩罚的增大,少类样本的分类准确率显著提高。 (5)针对乐谱分割造成的符号漏检率高的情况,提出了音乐符号分割和分类交替进行的识别算法。将乐谱图像交替地进行分割与分类,并应用滑动窗对初次分割的残缺符号或者高密度符号集合进行复原与多次分割,再通过提前训练的多个分类器来对音乐符号进行分类,动态找回因分割而残缺的符号,并将识别的所有符号保存。最后通过音符的类别与附点的个数确定音符的时长,通过计算符头与谱线的相对位置确定音符的音高,最终得到重建的乐谱,并输出为MIDI(Musical Instrument Digital Interface)文件。 (6)最后,应用MATLAB GUI开发了一个完整的光学乐谱识别系统。该系统结合音乐背景知识,实现了乐谱数据的识别和重建,将乐谱语义以标准MIDI格式的文件输出。该系统友好的界面有利于用户的使用,在系统读入乐谱图像后,可以通过简单的按键分别对乐谱进行谱线定位、符号提取等具体环节的显示,也可以将乐谱图像直接转化为MIDI文件,并播放其声音,实现了乐谱图像向电子乐谱的转化。