复杂环境下钢琴音频的分离及自动转录

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:sscy2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐是一种被大众认可的艺术形式,随着科技进步,数字化音乐已成为音乐传播与存储的重要载体。音乐自动转录是一项将音乐信号数字化表示的研究,是音乐信息检索的重要研究领域之一。近年来自动音乐转录被大量研究,但现有算法均对输入要求较高,必须为纯净音频,因此实用性较差。为解决上述问题,本文选用最具代表性乐器钢琴作为研究对象,研究复杂环境下钢琴音频的分离及自动转录,主要内容包括:(1)复杂环境下钢琴音频的分离。实际应用中待转录的钢琴音频往往混有较多环境音频,如噪声、人声或其他乐器音频,这种复杂环境下纯净钢琴音频被污染或覆盖,严重降低了钢琴音频转录的正确率,因此转录之前需将纯净钢琴音频分离出来。经过试验对比分析,选用基于时域的Conv-Tasnet网络进行音源分离。Conv-Tasnet网络直接对混合音频时域信号进行处理,输出分离后的纯净音频时域信号,无需提取音频信号的频域特征,避免了STFT等时-频率变换法中相位错误估计和计算时间长的缺点。但是时域Conv-Tasnet网络在语音数据集上有较好的分离效果,应用于钢琴音频数据集上分离效果不佳。(2)针对钢琴的复音音频特点,提出一种钢琴音源分离Multi Conv-Tpsnet网络模型。输入端设计多尺度编码器以提取更多钢琴音频特征;在分离器中,使用深度可分离卷积替代卷积块中的普通卷积,更好地解决了参数冗余问题,降低了网络模型尺寸;同时引入全卷积门控机制,更有效控制信息流,提高分离能力。对不同信噪比的混合音频进行音源分离实验,结果表明相比于Conv-Tasnet模型,Multi Conv-Tpsnet在钢琴音源分离中取得了更好的效果。(3)采用Convs-Bi GRU网络对纯净钢琴音频进行自动转录。分析了两种频域特征提取方法,短时傅里叶变换与常Q变换的优劣,通过实验证明常Q变换更适合作为钢琴音频转录的频域特征提取方法;使用通道剪枝技术对Convs-Bi GRU网络进行压缩,减小了模型尺寸。
其他文献
群文阅读是当前十分热门的一种阅读教学方式,适用于各个阶段的语文教学,既能充实阅读教学内容,又能优化阅读教学效果,因此得到了诸多教师与学生的认可。在初中语文教学中开展群文阅读可以让学生的阅读素养与能力更上一层楼,帮助学生有效积累并内化知识。本文将对此展开研究。
听说读写是英语学习者语言能力的四个组成部分,对于每一位英语学习者都至关重要。作为四项技能之一的听力技能在英语沟通和交流中发挥着重要的作用。并且,输入与输出的过程贯穿于语言学习的始终,听作为英语学习中的接受性技能,对于语言的输出扮演着不可替代的角色。然而,对于大部分学生来说,英语听力技能是最难掌握的技能之一。克拉申的可理解输入理论强调大量可理解的语料的输入对于英语学习者的必要性和重要性,这对英语听力
油莎豆又称虎坚果,莎草科莎草属植物,原产于非洲,作为一种集粮、油、牧、饲于一体的新兴农作物已被我国引进种植。油莎豆具有较高的经济价值和开发潜力,其块茎不仅营养丰富,还具有降血压、降血脂、降低胆固醇等医学保健功能。从油莎豆主粮制品、饮品、发酵制品和其他制品几个领域,阐述了油莎豆非油制品加工的最新研究进展,并对其未来发展前景进行展望,以期为油莎豆块茎以及其提油后副产物的开发利用提供参考。
基于学科核心素养的项目化学习,与传统课堂教学路径不同,项目化学习强调学习与真实世界的链接、以项目成果为导向的逆向教学设计,重在核心素养的培育。一个真实的、鲜活的主题是一个项目的“心脏”。本文从项目化学习的选题路径、策略及选题的原则等三方面展开讨论。
提高思政课教师核心素养和能力,是新时代教育发展的必然要求,也是破解教师队伍发展不平衡问题的必由之路.基于诸多素质的有机构成,思政课教师核心能力各有侧重,主要体现为蕴含政治素养和道德素养的价值引导力,在育人实践层面融合与体现的教育教学力,综合体现育人精神和时代要求的守正创新力.通过厚植师德师风、激发使命担当,可以提高价值引导力;通过扎实理论功底、提升专业素养,可以优化教育教学力;形成并发展守正创新力
喜剧片作为观众喜闻乐见的类型片在电影市场一直表现不俗,近年来,“开心麻花”系列喜剧电影的推出更是受到国内观众的热议和追捧。其凭借着统一的叙事结构、通俗化的主题和小人物叙事内容以及拼贴式的视听元素在喜剧电影中独树一帜。基于此,具体分析开心麻花的电影作品,旨在探寻其成功的奥秘。
<正>我国是世界上老年人口规模最大的国家,也是世界上老龄化速度最快的国家之一。“十四五”时期,我国将进入中度老龄化社会,也将进入银发经济的加速期。据《中国老龄产业发展报告》预测,到2050年,我国老年群体消费潜力有望增长至约106万亿元,在GDP中的增长比例将提升到33%,中国将成为全球老龄产业市场潜力最大的国家。
期刊
海南省自古盛产沉香,是沉香树原生分布区和沉香主产地,也是海南省为数不多的具有天然优势的产业。自2010年起,海南省陆续发布了DB46/T 197-2010《白木香种子种苗》等9项地方标准。为研究该9项沉香海南省地方标准的科学性、适时性和实用性,本文对海南沉香产业的标准实施情况进行调研,了解现状,分析其存在的问题并给出建议,以发挥标准化在沉香行业发展的规范、引领作用,为海南沉香行业持续健康发展提供技
梳理、归纳了与数字产品适老化评估相关的主要概念,构建了适老化评估理论框架。澄清了在“适”与“老”问题上的一些常见概念混淆和认识误区。对数字产品适老化评估进行了概念界定。在此基础上构建了数字产品适老化评估体系,明确了其组成要素、实施流程。通过对适老化评估内容的具体示例,展示了适老化评估体系的完整实施框架。
在高浓度蛋白水解物中加入蛋白酶,会生成新的沉淀,这个过程称为Plastein反应。Plastein反应是一个对环境友好的绿色过程,只需要食品级酶,并且可以通过修改Plastein反应条件来控制反应以生产符合食品工业需求的产品,不需要任何化学药品。然而,因为反应的过程比较复杂,反应机制仍不清楚,这制约了它在工业上的应用。ACE(血管紧张素转换酶)抑制剂主要是通过对ACE活性的抑制,从而降低血压,是一