结合先验知识与改进隐马尔可夫模型的钢琴指法自动标注算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:leobear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指法是钢琴演奏中最基本最重要的技术之一,但目前大量乐谱上都缺失指法信息,这对专业演奏家及业余演奏爱好者来说,都是演奏时遇到的首要问题,因此钢琴等键盘类乐器的指法自动标注方法研究具有重要的理论和应用价值。
  现有的一阶隐马尔可夫模型(Hidden Markov Model, HMM)若直接用于钢琴指法标注,因其不能结合音符序列的长程信息,将导致标注结果存在物理不可弹指法,演奏效率较低。因此本文中提出了一种基于判决隐马尔可夫模型和改进维特比算法的钢琴指法自动标注算法。
  在训练阶段,结合指法规则的先验知识,在HMM的转移概率中引入了判决函数,从而能够去除错误的穿跨指和超出可弹跨度的指法;在预测指法路径时,改进了维特比算法的寻优规则,首先根据先验知识对音符序列进行八度分段,并改进初始指法的确定方法,最后选择穿跨指数最少、演奏效率最高的指法序列为最优指法。
  由于目前缺少公开、权威的数据集,笔者搜集了Bach28首短篇钢琴乐谱,5首Cherny299和7首中国音乐学院社会艺术水平考级1-3级中的乐谱,共40首乐谱作为实验数据集。为了充分表征算法的性能,在评价指标上,除了与人工标注指法序列进行比较的一致率外,文中还提出了不可弹指法占比率和欠合理率两种新的评价指标来衡量指法的可弹性和演奏效率。通过实验验证,文中算法相较于现有标注模型在一致率和两种新的指标上提升效果显著,一致率可以达到66.45%,错误指法占比降为0%,欠合理率由17.2%降低至1.84%。
  另外,为了对比在小数据集下传统方法和深度学习方法的性能,还与Bi-LSTM-CRF进行了对比。训练时,分别采用了原始音符序列和音符差分序列,实验结果显示原始音符序列训练的模型一致率仅有55.06%,错误指法占比为15.92%,不可弹指法为16.3%,而音符差分序列训练的模型一致率可以达到67.9%,错误指法占比为3%,不可弹指法占比为5.02%,该结果表明利用音符差分序列可以有效提高标注结果的一致率。由此可见,相较于原始音符序列,指法标注和音符差分序列的关系更密切,从而进一步验证了本文算法结合音符差分信息改进HMM的有效性。但现有数据量下,深度学习模型在不可弹指法率和欠合理率上差于本文中提出的算法。
其他文献
随着互联网和多媒体技术的快速发展,图片数据呈几何式增长。其中有一些图片令人们印象深刻,有一些图片却容易被人们忘记。近些年来,研究者们发现这种现象可用图像可记忆度解释,图像可记忆度是图像的固有属性,旨在描述一张图片能够被人记住的程度。目前,对图像可记忆度的研究主要有两方面,一方面是研究影响图像可记忆度的因素,另一方面专注于对图像可记忆度的预测。现有的很多图像可记忆度预测方法通过简单的特征串联表征图像
虽然数码相机拍摄画质日益提升,在低光照或者高感光(ISO)模式下拍摄图像仍会不可避免的引入噪声。而且在很多情况下,需要调高相机的ISO进行拍摄,例如夜间拍摄或者捕捉快速运动的物体。该类实际噪声在空间分布和颜色通道上具有相关性,远比高斯噪声复杂,所以传统的高斯去噪算法难以有效去除该类噪声。鉴于此,本文从盲去噪的角度分析,充分利用卷积神经网络(Convolutional Neural Network,
学位
近年来,随着电子技术的飞速发展,阵列信号处理逐渐成为当前信息处理领域一个热门问题。阵列信号处理主要研究空间分布传感器阵列信号的信息处理问题,波束生成技术是阵列信号的基础,被广泛应用于通信雷达、图像处理、电力、机械振动、医学等领域。阵列信号处理所对应的信号分解和信号重构问题分别是空间谱估计和波束生成,但是在信息科技的发展过程中也不可避免的遇到了阵元间耦合效应加剧影响性能和软硬件成本提高这两个瓶颈问题
场景分割在智能驾驶中有广阔的应用前景,目前针对智能驾驶领域的场景分割算法主要依靠语义分割实现对场景中物体的识别和理解。针对场景中目标物体的类别可以将其划分为两类:基于所有物体的场景分割和以人为核心的场景分割。  在场景分割算法的设计上,提取具有判别力的上下文信息是关键。因此,本文首先提出了一种基于稠密金字塔和协同学习的语义分割模型,由局部上下文金字塔模块和全局上下文金字塔模块级联形成的稠密金字塔,
学位
随着社会的不断发展,大量的视频监控被用于维护社会的公共安全。然而,视频监控虽然为公安部门提供了很多珍贵的线索,但是通过人工的方式在视频监控中寻找线索需要耗费大量的时间和人力。因此,基于自然语言描述的跨模态行人检索作为缓解这一问题的新兴技术,旨在根据自由形式的自然语言描述的询问,在不同的视频监控中找寻符合描述的目标行人。该任务是一项极具挑战性的细粒度跨模态检索任务。  首先,考虑到自然语言描述信息的
近年来宽色域视频图像技术取得了较大发展,通过采用更加饱和的三原色的成像与显示技术以及采用多原色背光或多原色彩色滤光阵列的多原色成像与显示技术大大提高了色域覆盖范围。本论文对目前扩展色域的三原色及多原色数字成像与显示技术进行了广泛研究与分析,并针对当前多原色宽色域成像系统的图像信号无法在现有标准三原色通道传输和多原色宽色域显示系统没有多原色图像源的问题,设计并实现了与三原色标准相兼容的四原色宽色域视
学位
随着信息技术的高速发展,室内导航、家居设计和增强现实的需求日益增长,场景的重建和理解已经成为计算机视觉和计算机图形学中一个很活跃的话题。如今的重建方法大都依赖于较为理想的环境,在光线较弱和视角稀疏的现实情况下存在着很多问题与挑战。本文围绕着如何在弱光照条件以及稀疏视角的情况下重建与理解现实场景展开研究,其主要工作和创新点如下。  (1)设计了一套简易偏振系统用于图像的增强。为了应对彩色图拍摄质量不
学位
随着计算机技术的快速发展以及互联网的普及,人们获取信息变得越来越方便。同时,信息的数量飞速增长,其种类也越来越多。最初的信息形式为文本、数字等,现在发展为图像、声音、视频等各种多媒体信息。其中,三维模型作为虚拟现实等技术的基础,使用范围变得越来越广泛。相比于图像视频,三维模型作为一种新的信息媒介在很多领域都发挥着重要的作用。目前三维模型已经被广泛应用于工业产品设计、影视动画、电子商务、文物保护、城
Gas signaling molecules(GSMs), composed of oxygen, carbon monoxide, nitric oxide, hydrogen sulfide, etc., play critical roles in regulating signal transduction and cellular homeostasis. Interestingly,
会议
行为检测是从包含大量背景信息的多媒体视频中检测出包含人的动作行为的视频片段的起止时间,并对视频片段进行分类的计算机视觉任务。在智能视频监控、视频自动审核、自动驾驶方面有重要应用价值。大数据时代的到来,使以视频为代表的多媒体信息出现爆炸性增长,行为检测的重要性愈加凸显。然而真实的多媒体视频包含复杂的场景信息,加上人的行为复杂多样,设计出鲁棒的、可迁移的、精度高的行为检测算法依然困难重重。  针对行为
学位