论文部分内容阅读
光学乐谱识别技术将数字化乐谱图像转化为计算机能理解的代码格式,对音乐信息处理具有重要意义,同时对发展农村音乐教育、娱乐水平,甄选有利于农业生产的音乐作品等工作提供技术支持。以便携式数码相机设备采集的视觉图像更适合农业的作业环境,经济优势明显。受点聚焦和自然环境因素的影响,视觉乐谱图像具有背景复杂、光照不均匀、五线谱倾斜、弯曲、模糊等问题,严重影响了乐谱识别效果。文章针对视觉五线谱图像识别的难点,对乐谱自动定位、二值化、谱线检测及乐符识别等关键问题的解决方法进行了探讨,以期提高印刷体视觉乐谱的识别效率。本文主要贡献和创新点如下: (1)将非监督特征学习理论引入到乐谱自动定位方法中。不依赖于五线谱的结构特点,以图像块为判别单元,通过K-means聚类算法提取图像块特征,采用支撑向量机进行分类,利用同类结果的连通域搜索确定乐谱位置。与其他特征提取方法的比较表明,非监督特征学习方法在视觉图像块分类适应性和复杂性上都具有一定优越性,当汉字为干扰因素时降低了乐谱检测的错误率。 (2)提出了基于灰度差分的双层区域划分方法,以动态多阈值二值化方法解决视觉乐谱图像不规则区域自然光照不均匀问题。该方法以灰度差分变化率区分前景与背景图像块,再依据前景图像块的背景灰度值,将前景图像块集合划分成光照强度相对一致的区域,最后对每个区域采用简单的Otus阈值进行二值化。这种层次处理方式,与全局阈值、局部阈值及其它乐谱二值化方法相比,不受光照方向等限制,可以划分出不规则形状的二值化区域,有效提高了图像二值化效果。 (3)改进了基于像素游程的细化算法和拐点的提取算法。通过直接在笔画交叉位置出现断点的方式,降低了细化后图像矢量线段提取的复杂度;在双角度阈值拐点提取方法基础上,通过粗判断细分析的方法,改进拐点位置判断的准确度,从而提高矢量线度提取的精度。 (4)在矢量线段分析基础上,提出了一种以折线模拟弯曲谱线的音高识别方法。首先,在一个小节范围内,对水平线段的组合方式进行了分析,改进了最短路径谱线检测算法,确定谱线段组;然后,以水平线段及相邻线段间的补充线段形成的折线表示谱线;最后,根据符头所在位置调整谱线间距参数,识别音高。以折线表示谱线,与校正弯曲谱线方法相比,具有方法简单、效果稳定性好的特点。 (5)提出了一种基于细化图像断点分析的乐符分割方法。在不去除谱线情况下,以谱线断点为种子,设定规则以区域增长算法完成对谱线上乐符的切分;同时,针对带有谱线的乐符识别问题,改进了方向梯度直方图(Histogram of OrientedGradient,HOG)特征算法,构建了矩形环状HOG结构,以适应乐谱图像中普遍存在的乐符镜像现象。该切分及识别方法有效解决了视觉乐谱图像谱线去除难题,提供了新的乐符定位及切分思路,提取了适应性强的乐符特征,提高了带有谱线乐符的识别率。