视听融合钢琴转录技术研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:oyphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动音乐转录(Automatic Music Transcription,AMT)是音乐信号处理中重要的问题,是将声信号转换为符号标记(如MIDI或乐谱)的过程,在音乐教育、音乐创作等领域发挥着重要作用。钢琴音乐是复调音乐中典型的代表,目前基于音频的钢琴转录是主流方法,此外还有利用视频转录的研究,近年来基于视听融合的转录也成为一个新兴的研究方向。本文沿袭视听融合的思路,提出CNN和RNN相结合的融合转录框架,具体实现了特征融合和策略融合两种方法并进行对比研究。针对当前公开的钢琴音视频转录数据集缺失的问题,自建并公开了OMAPS(Ordinary MIDI Aligned Piano Sounds)数据集。本文的主要工作包括:(1)对两种融合方法中共用的音频转录算法进行改进,提出感知起始变化过程以及音高持续辅助起始检测的方案提升转录精度,在OMAPS数据集F1值达到87.51%,并且在目前主流的音频数据集精度也表现优异,是目前基于音频转录算法中效果最好的方法,为融合奠定了良好的基础;(2)实现了基于特征融合的转录算法,提取单模态的中间特征进行融合,对融合的特征建模得到转录结果,在OMAPS数据集F1值达到90.22%,超过仅使用音频转录的精度;(3)实现了基于策略融合的转录算法,构建规则用视觉转录的优势来辅助优化音频转录结果中固有问题,最终在OMAPS数据集F1值达到92.07%,超过特征融合的方案。经对比研究,本文发现基于策略融合的视听融合方案效果最好,精度超过基于特征融合的方案,且两种融合方案都优于目前效果最佳的音频转录方案,证明了视听融合钢琴转录的有效性,为后续研究明确了方向。
其他文献
<正>1956年6月至8月间,我国政府根据全国人民的正义要求,按照我国的法律程序,对日本帝国主义侵略我国战争中的战争犯罪分子作出了严正而宽大的判决,得到了我国人民和日本人民的拥护,也得到了世界爱好和平的人民的同情和支持。从那时以来,30多年过去了,中日两国人民友好关系得到了更加广泛深入地发展,中日两国之间的邦交也早已正常化。历史证明,我国政府对于日本战争犯罪分子的处理,是适时和正确的,不仅完全符合
会议
准确预测煤炭价格可以提高煤炭销售决策的科学性,为了提高煤炭价格预测精度,提出基于改进加权聚类的煤炭价格区间型组合预测模型.从制造费用、煤炭产量、煤炭消费和库存变化等方面分析了影响煤炭价格的因素.根据煤炭价格数据的波动性特点定义了小波变换函数,通过消除煤炭价格数据噪声完成煤炭价格数据的预处理.在引入多属性决策中的区间数相离度概念基础上,利用改进加权聚类法确定煤炭价格区间组合预测权重,通过计算煤炭价格
期刊
基于延时相关的综合孔径辐射计成像系统具有相关运算量少的优点,但同时灵敏度性能降低了。随着遥感技术的发展和应用,对微波辐射计的性能要求也越来越高。灵敏度是微波辐射计性能评估的重要指标之一,因此对基于延时相关的综合孔径辐射计的灵敏度进行研究也是十分有价值的。延时相关原理的应用使得基于延时相关的系统在可见度的获取上与常规综合孔径产生差异,本文基于这种差异对基于延时相关的灵敏度进行研究。推出基于延时相关的
学位
随着人工智能技术不断发展,武器系统已成为人工智能研发应用新领域。当前人工智能武器的发展路径呈现二元化趋势:“武器+AI”与“AI+武器”。从大数据算法到深度学习,多类型化的人工智能武器犯罪问题也使“科技改变战争”这句话有了另一面向的隐喻。以人工智能武器“主动性”为标准,划定人工智能武器犯罪类型是应对安全风险的核心问题。从挑战国际法规则、改变战争核心逻辑、异化交战权属性等方面,研判人工智能武器犯罪风
期刊
火电厂锅炉炉内、建筑物内火灾蔓延趋势等气体浓度场监测,对于实现过程监控、改善系统效率、确保系统安全等方面具有重要意义。目前光学气体成像技术研究成熟,但以国外工业产品居多,特别是其中的关键光学器件几乎被国外垄断。与光学技术相比,声学气体传感技术拥有价格低、维护低、寿命长等优点。此外,声波传感器安装便捷,更适合规模化系统布置。因而声学气体成像越来越受到人们的重视。本文在基于声速频散的气体传感方法的基础
学位
地基微波辐射计可连续、无人监管地测量地表垂直10公里的大气温湿度廓线,弥补了探空气球观测时间不连续、成本高的缺点,对提高中小尺度天气系统监测精度和强天气预报能力具有重要的意义。地基微波辐射计的探测性能取决于对大气辐射亮温测量、大气参数反演的准确度和稳定度,直接受定标、反演的影响。但目前国产地基微波辐射计由于缺少在实测过程对定标误差进行深入配套研究,而使用观测亮温训练反演网络存在缺少长期观测样本的缺
学位
随着5G技术和物联网的发展,各种类型的无线设备快速、持续地增长,如何保护异构设备之间的通信安全成为了一个严峻的挑战。友好干扰是一种不依赖密钥的物理层安全技术,其通过人工噪声对窃听者进行干扰来实现保密通信。它可为那些已经广泛部署了的,无密钥或弱密钥保护的无线通信,及资源受限的设备间的无线通信提供一种灵活的通信安全解决方案。然而,在当今的无线通信系统中,MIMO窃听者可以通过分离接收信号剔除人工噪声,
学位
目的:探讨大学生网络游戏成瘾与冲动性特质、消极认知情绪调节策略的关系。方法:采用整群抽样的方法抽取唐山市某大学共1599名大一至大四学生,使用网络游戏成瘾问卷、Barratt冲动性量表第十一版和认知情绪调节策略问卷进行调查。结果:(1)相关结果显示,自我责难、反刍、灾难化、责难他人、注意力冲动性和运动冲动性的得分均与网络游戏成瘾得分呈显著正相关(r=0.267,0.244,0.262,0.220,
期刊
目的 探讨消化道癌症患者益处发现与认知情绪调节策略、自我效能、社会支持的关系。方法 采用方便抽样法,应用益处发现量表、认知情绪调节问卷、一般自我效能量表、领悟社会支持量表对284例消化道癌症患者进行问卷调查,分析其作用路径。结果 消化道癌症患者益处发现总分为(45.91±9.01);社会支持、自我效能、接受、重新关注计划进入益处发现的多元回归方程,可解释益处发现的84.8%;接受、重新关注计划策略
期刊
随着人们对环境问题的日益重视,对于气溶胶领域的研究也越发深入。传统对于气溶胶粒子的研究基于Mie理论,该理论适用于球形粒子的计算。但气溶胶粒子的形状并不是单一球形粒子,仅仅基于球形粒子下的气溶胶研究会使结果有较大偏差。因此,对于气溶胶粒子形状的研究具有重要意义。本文基于Mie理论与离散偶极子近似方法对球形与非球形(椭球、圆柱)气溶胶粒子进行光散射特性仿真分析。通过分析不同尺度参数(粒子直径与入射光
学位