基于视觉多模态信息融合的钢琴转录技术研究

来源 :曹勇 | 被引量 : 0次 | 上传用户:mm315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动音乐转录(Automatic Music Transcription,AMT)是将音乐信号翻译为符号标记的过程,AMT广泛应用于乐理分析、音乐创作、音乐教育等领域。在钢琴音乐转录领域,除了基于音频的转录方法以外,基于视觉的转录方法也成为一种有益补充。然而,基于RGB视频信息的视觉单模态转录方法存在一些缺陷,例如:钢琴黑键的弹奏状态变化不明显,因此转录精度还有进一步提升的空间。本文针对RGB视频转录方法的不足,提出了融合RGB视频信息与手部骨架信息的视觉多模态融合转录框架,其主要工作包括:(1)针对钢琴视频转录领域公开数据集缺乏的问题,创建并公开了OMP(Open MIDI Piano)数据集。(2)对RGB视频单模态转录算法进行改进,将琴键的位置信息作为补充特征输入到模型中从而提升转录精度,在公开数据集MIDI test set和OMP数据集上F1值分别为75.07%和83.26%,是当前效果最好的基于RGB视频的转录算法。(3)首次将手部骨架信息应用到钢琴转录领域,提出了基于图卷积网络(Graph Convolutional Network,GCN)的转录算法,该方法将转录模型的注意力从琴键转移到手上,克服了已有视觉转录方法的缺陷,在MIDI test set和OMP数据集上F1值分别为81.49%和86.38%,其性能优于当前主流的基于RGB视频信息的单模态转录算法。(4)将RGB视频和骨架信息两种模态进行了特征融合,学习不同模态特征之间的联系并预测最终钢琴转录结果,在MIDI test set和OMP数据集上F1值分别为86.32%和91.14%,超过了基于RGB视频或骨架信息的视觉单模态转录算法的精度。因此,本文提出的视觉多模态融合转录算法有效地整合了琴键图像特征变化与演奏者手部姿态变化的信息,取得了更好的转录精度。
其他文献
为解决现有电信网络开发周期长、管理复杂、技术创新难等问题,欧洲电信标准化协会提出了网络功能虚拟化(Network Functions Virtualization,NFV)概念,将网络功能软件与专有硬件解耦,并将一系列虚拟网络功能(Virtual Network Function,VNF)封装成服务功能链(Service Function Chains,SFCs)为用户提供灵活、可扩展的多样化服务
学位
随着互联网技术的高速发展与移动终端的不断普及,线上用户在快速获得信息的同时,也面临着信息冗余的问题。信息冗余问题在互联网广告领域尤为明显,将不同类型的广告尽可能精准地推送到目标用户面前,一直是算法工程师的研究目标之一。信息冗余问题的解决,在用户层面,可以节约用户时间,提高用户体验和粘性。在运营层面,可以提高广告投放效率,降低企业运营成本。本文以亚马逊电商广告数据集为基础,设计了基于用户画像的互联网
学位
近年来,随着互联网的快速发展,激增的数据流量对当前网络架构提出了挑战。同时用户在互联网上的行为重心逐渐向信息交换和内容获取转移。为应对当前网络架构的不足,以内容为中心且用户驱动的命名数据网络(Named Data Networking,NDN)应运而生,其泛在缓存、灵活路由转发等特性为内容的获取提供了极大的便利。为充分利用NDN网络架构的优势,考虑在NDN网络中嵌入计算功能,以满足用户对新兴计算密
学位
高度信息化的社会每天都在以一个递增的速度产生海量的数据,传统的以半导体为存储介质的存储体系正面临着巨大的存储压力,因此找到一个全新的具有更高存储密度和更长存储时间的存储解决方法成为了一个亟待解决的问题。DNA作为存储介质天然具有超高存储密度、超长存储时间和低能耗等优点,以DNA为存储介质的DNA信息存储技术为目前的海量数据的存储提供了新的解决思路。目前主流的D NA信息存储方法都是针对所有类型的文
学位
随着智能手机的飞速发展与广泛应用,以唱歌评测和视唱练习为主的音乐智能信息服务越来越多的被人们所使用。对于现有的唱歌应用,歌曲和乐谱通常是内置的,用户难以自由拍照导入乐谱。而现有的乐谱识别软件对于拍照导入的乐谱识别效果并不理想,因此本文拟对真实拍照场景下的印刷体乐谱的识别展开研究。本文采用乐符目标检测方法,提出了一套基于五线谱谱线感知的完整的乐谱识别方法。该方法能直接输入一张完整的拍照乐谱图片,经过
学位
随着新冠肺炎影响持续、国际政治经济冲突不断,近年来钢材价格波动剧烈。规避螺纹钢等钢材价格波动风险,成为保障实体经济的健康发展的必然要求。在金融理论上,期货具有预期性的价格发现功能,但是期货价格和现货价格存在何种数值关系,以及如何利用期货价格,对现货价格进行数值预测的研究,目前仍处于起步阶段。本文选取了近十年内,上海期货交易所螺纹钢期货主力合约每交易日的收盘价,及上海地区螺纹钢现货市场每交易日对应的
学位
目前僵尸网络采用域名流动(Domain-Flux)技术来逃避域名黑名单的检测,Domain-Flux技术是指僵尸网络使用域名生成算法(Domain Generation Algorithm,DGA)生成大量恶意域名,从这些域名中选择一个作为命令与控制(Command and Control,C&C)服务器的域名。关闭C&C服务器是摧毁僵尸网络的关键,所以检测并识别DGA算法生成的恶意域名对于网络安
学位
目的:本研究旨在通过质性研究、专家咨询及文献回顾制定科学、有效、实用的肿瘤科护士自杀“守门人”培训方案,基于实证研究,实施并评价肿瘤科护士自杀“守门人”培训方案的科学性、实用性与有效性,为我国各级各类医疗机构开展肿瘤科护士自杀“守门人”培训提供参考。方法:(1)运用描述性质性研究方法,探究肿瘤科护士在预防患者自杀中的障碍因素,借助数据编码软件NVivo 12.0对数据进行编码与整理,根据内容分析法
学位
在编程教育领域,编程调试过程中的行为测量研究,对于分析个体调试行为特征、调试策略和眼动模式具有重要意义。然而,仅仅依靠传统的量化分析方法,难以满足复杂多模态调试行为数据的分析需求。近年来,越来越多的相关研究采用可视化技术,帮助分析者理解多模态编程活动行为中的眼动跟踪模式、洞察潜在的认知过程。现有可视化相关研究在思维过程提取、调试意图识别和多人运算等方面仍处于探索阶段,仍然需要新的分析方法。本文以I
学位
“不是”类反问句是口语会话中使用频率较高的一类是非型反问句。本文基于互动的视角对现代汉语“不是”类反问句进行研究,重点考察其识解特点、互动功能和语气迁移等。本文从句法、语义、韵律和具身动作层面对“不是”类反问句展开多模态分析。“不是”类反问句具有形义悖反的特点,句中否定词表达的是肯定性含义,否定词时长较短、语速较快,句末语调多为降调和平调,少数为升调,所伴随的具身动作多为输出型,用于传达说话人的某
学位