基于视觉的钢琴转录系统的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chaoshi648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动音乐转录(Automatic Music Transcription,AMT)是将声学音乐信号转换为符号标注的过程,常基于音频信息进行分析。但是多个音在同一时间会相互重叠,因此仅通过分析音频难以得到准确的识别结果,为了解决这个问题,可以采用基于计算机视觉的方法进行转录。
  现有研究中,基于视觉的钢琴转录系统主要包括两个关键算法:基于霍夫变换的钢琴键盘检测和使用分类器的按键检测,但以上两个算法在复杂的环境中准确度和鲁棒性都有待提升。本文实现了一个鲁棒的、性能更高的视觉钢琴转录系统,该系统包含四个模块:钢琴键盘注册、手的检测、动态背景更新和音调检测。系统输入钢琴转录视频,首先通过钢琴键盘注册模块确定背景图片和琴键位置;接着通过手的检测模块获得每一帧手的范围,以及通过动态背景更新模块防止光照变化对结果造成影响;然后得到每一帧和背景图片的差分图;最后通过音调检测模块得到转录结果。本文的主要贡献有以下四个方面:(1)针对霍夫变换在钢琴键盘检测上检测能力不足的问题,使用语义分割进行钢琴键盘检测,取得目前最准确的结果;(2)针对当前检测按键分类器性能不足的问题,设计并实现了一个适合钢琴按键检测的CNN模型,经实验验证取得最先进的性能;(3)讨论了不同环境(光源位置、相机位置、光照强度)对按键检测的影响,并给出了部署系统的最佳建议;(4)针对当前视觉钢琴转录领域数据集缺乏的事实,提出了一个新的视觉钢琴转录数据集(VisionPiano),包含了在实验室录制的数据(PianoDataset2)以及网络下载的视频数据(PianoDataset3)。
  本文使用的钢琴转录数据集包括Akbari提出的数据集(PianoDataset1 )和VisionPiano。系统在PianoDataset1上平均F1值达到96.5%,在PianoDataset2和PianoDataset3上平均F1值分别为95.1%和93.2%,是当前效果最好的视觉钢琴转录系统。
其他文献
随着各种智能应用的不断发展,获取准确的位置信息变得越来越重要。由于室内环境结构较为复杂,如何在室内实现准确的定位成为了近年来的一个热门研究课题,对此研究者们提出了许多不同的解决方案。其中,基于WiFi的室内定位技术成为了最热门的技术之一。
  本文研究了基于WiFi的RSS指纹的室内定位技术,主要研究了两个方面的问题:(1)室内定位模型;以及(2)指纹地图构造。
  在室内定位模型中,我们提出了两种定位模型:
  (1)基于卷积神经网络的室内定位模型CNNEu。相比于其他基于样本RSS或
温暖记忆抚慰人心    从沉淀的昨日情怀中找寻最为难忘的味道与感觉,最能抚慰人心。于是,慢慢收集、深情回味,缓缓开启冬日里一段最温暖的美好回忆。  那些初次相识“一触即红”的娇羞与惊喜,历历在目,至今仍不能忘怀它所富于的那份心动与甜蜜。而今,LG BL20e紧闭红唇的样子像极了第一代巧克力的样子,有过之无不及的前卫跃动与可爱迷人,如同暗夜精灵,让人忍不住想拥有。或许BL40e奢华的价格让人有些怯怯
期刊
随着信息技术的发展,现代教学方式也随之发生改变,除传统的课堂教学以外,网上授课、智慧教室等诸多新教学形式也流行起来。在教育逐渐步入智能时代的背景下,若能利用信息技术实现课堂智能分析系统,自动对课堂中学生的学习行为进行分析,为教师提供教学数据参考,将对提升教学效果、促进教学公平提供很大的帮助。
  本文设计了一个面向真实的小学课堂教学场景的学生学习行为识别算法,该算法利用网络摄像头实时采集课堂视频数据,自动分析课堂注意力信息和学生动作信息,并将其量化和可视化后的结果提供给教师。本文的主要贡献包括:(1
主演:  我——《数码》杂志编辑,爱拍照、爱逛街、爱时尚、爱所有新鲜事儿……这是第一次来日本,也是第一次和小卡单独相处的7天。  小卡——我对卡西欧EX-H10的昵称。她是日本血统,懂中文,秀外慧中,拍照最拿手,眼光很独到。这是小卡第一次在我面前展示自己的拍照技术。    故事背景:  如果没有这次卡西欧邀请的媒体团访日之行,我也许不会对像H10这样的卡片数码相机产生如此依恋之情。为了心无杂念地体
期刊
书法是中国传统文化的精髓,它融合了中国历史的文化底蕴和哲学内涵。目前,随着互联网技术以及计算机科学的发展,在移动设备上书写汉字越来越常见,书法正以全新的方式被传承和发扬。国内外对计算机手写美化的研究可以概括为四个方面:数字墨水、草图美化、书法生成、手写汉字美化。目前这四种技术都在各个领域得到了广泛的应用,但是仍存在一定的不足。一方面,数字墨水、草图美化、书法生成等技术存在美化效果较单一、不能很好体现用户特点等问题;另一方面,现有的手写汉字美化技术针对书写较差的汉字美化效果一般。
  本文提出了一种基
2009年是Android手机迅速崛起的一年,不论其UI设计还是用户体验都有着与其它智能手机相比不同之处,因此它也被Google寄予厚望,肩负起与其它智能手机操作系统分庭抗礼之重任。    风格明显的Android    Android一词的本义指“机器人”,同时也是Google于2007年11月5日宣布的基于Linux平台的开源手机操作系统的名称,该平台由操作系统、中间件、用户界面和应用软件组成
期刊
形成性评价是以学生为核心,通过对学生在学习过程中的态度、成果等方面做出评价,帮助教师改善教学策略的评价方式。形成性评价在国外教学中已经被广泛应用,并在实践中被证明具有促学作用。我国从21世纪初引进了形成性评价政策,并逐渐推行。但是目前在高等教育教学中,受限于传统教学思想与教师资源的紧缺,对学生的评价方式普遍侧重于对学习成果的测量,与形成性评价有一定差距。
  针对这种现状,本文对基于学习管理系统(Learning Management System,LMS)数据与课堂视频的形成性评价方法展开研究。研
随着物质生活水平的提高,人们越来越重视精神生活的需要,选择音乐教育的人也越来越多。钢琴教育作为音乐教育中最为成熟的方向之一,吸引了众多学员。钢琴自动转录(Automatic Music Transcription,AMT)可以对钢琴演奏内容进行符号化输出,检测当前演奏的音符,输出音调、起始时刻、终止时刻,帮助演奏者记录演奏内容,提高演奏能力。
  本文研究并实现了钢琴的自动转录系统,输入钢琴演奏音频或视频,基于图像或声音检测各个音符的演奏信息,包括音调、起始时间、结束时间。本文的主要内容包括以下三个
2009年12期我们推出“数码中国”专题,对数码领域的年度技术及应用、年度最佳产品进行一一盘点后,我们对2009年度的最佳工业设计数码产品进行了梳理和评选,在此,挑选出十大年度最佳设计产品,这些产品不仅是代表了数码产品设计的最新潮流,并且也将成为追求外观与设计感的精英人群消费首选。    01 Android英雄 第三代谷歌机HTC Hero    采用谷歌Andreid平台的智能手机已经成为20
期刊
汽车是现代生活中普遍使用的交通工具,汽车交通安全至关重要。障碍物检测依靠路况视频和计算机视觉技术,将成为未来辅助车辆安全行驶的重要发展方向。车辆由于自身设备的局限,需要通过车联网(IoV)信息交互来扩大障碍物检测的感知范围。5G移动网络可以有效地实现大规模车联网,随之兴起的网络功能虚拟化(NFV)技术将克服传统车联网的管理复杂、软硬件紧耦合等局限性,构建车联网新型网络架构。在此架构下,障碍物检测以服务功能链(SFC)的形式部署到车联网设施上,按需分配计算和带宽资源,这就是服务功能链的映射,是NFV技术的核