深度学习在音乐自动标注中的应用

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:gaga1235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在音乐标注领域,传统标注模型总是遵循一种固定的方式:从一组注释的歌曲出发,这组歌曲由音频的特征向量来表示,由此学习一系列对应不同标注的模型来进行预测。这种方式存在很大冗余;另一方面,大规模数据集的出现为模型设计带来了新的思路。因此,本文从近年兴起的深度学习入手,结合大规模的训练数据,探索更加简洁和准确的标注手段。具体来说,本文首先基于自动音乐标记研究的典型数据集:Magnatagatune数据集,对应不同的特征输入(梅尔频谱图、频谱图、梅尔频谱系数、原始音频)设计了 3种不同结构的卷积神经网络模型,对比了它们在同一数据集(Magnatagatune数据集)上的效果,发现梅尔频谱图、原始音频比频谱图以及梅尔频谱系数等特征在音频自动标记上有明显优势。然后我们设计了可视化模型来观察训练好的模型参数中不同层的卷积核对怎样的输入有最强的响应,并且可视化了这些响应。同时我们设计了不同深度的深度学习网络,在更大的数据集MSD(Million Song Dataset)的带标记的子数据集(last.fm)上进行了试验,发现在更大的数据集上,层数更深的模型明显优于浅的模型,该结果与计算机视觉领域的最新研究成果相吻合。同时,通过对比相同模型在不同数据集上的表现,我们能清晰地看到数据集大小的提升对于不同深度模型效果的重要影响。本文的贡献主要包括:(1)设计了多种结构的音乐自动标记的深度学习模型,在Magnatagatune数据集上对比了不同音频的中低层特征作为模型输入的效果,发现梅尔频谱图模型、原始音频模型的效果明显优于频谱图模型、梅尔频谱系数模型。同时,我们设计的原始音频模型在该数据集上取得了优于先前工作的 AUC(Area Under Curve)。(2)在更大的数据集MSD上对比了不同深度的模型的效果,发现深度更深的模型在更大的数据集上明显表现出优势,同时也启发我们数据集的大小对于发掘深度学习模型实际效果和潜力的重要影响。(3)可视化已训练好的模型,发现在梅尔频谱图模型中更高的卷积层中的卷积核对于频率的响应在一定程度上吻合了人耳听觉系统音阶响应的分布。
其他文献
目的预防重症急性胰腺炎合并乳糜瘘患者肠内营养期间并发症的发生。方法总结5例重症急性胰腺炎合并乳糜瘘患者,针对肠内营养特有并发症和乳糜瘘的特性,采取有效预防措施,减少
国务院此前召开常务会议,部署推进消费扩大和升级,促进经济提质增效。会议指出,消费是经济增长的重要“引擎”,是我国发展巨大潜力所在。在稳增长的动力中,消费需求规模最大、和民
报纸
在高速发展的现代社会,对人脉的整合能力越来越成为了现代社会人的核心竞争力之一。现代社会就像一个运转不停的机器,市场机制将资源不断地进行配置,而对于人脉和市场机会的整合
本文分析了技校生不爱上体育课的原因,从几个方面探讨激发和培养技校生对体育的兴趣,激活上体育课的积极性。教师正确引导学生,明确体育与健康的锻炼目的,把锻炼身体与人类生
作为我国支柱产业,建筑业不仅自身对国家经济贡献巨大,同时会拉动数十个相关产业,其带动性极强。上游关联建材、机械、劳务等,下游联系房地产、道路、铁路、市政、水利等产业
目的探讨生化检测法在细菌性阴道病(BV)诊断中的应用价值。方法对绍兴市人民医院妇科门诊650例阴道分泌物进行常规及生化检测。结果在650例疑似细菌性阴道病患者中,以"唾液酸
本文对西方关于非审计服务的实证研究进行了评述,概括起来说,他们的实证结果表明审计师提供非审计服务的后果可以归纳为非审计服务不利论和有益论两种。通过对这些研究的评述,文
爱·摩·福斯特的小说广受人们的喜爱和关注,自1938年以来出现了经久不衰的"福斯特热"。他能够得到人们如此长久而高度的关注,一方面是由于他的小说有着独特的艺术魅力,另一
目前珠江三角洲农业保险主要是由商业保险公司经营,没有专门的政策性农业保险公司,保险业的发展滞后于经济的发展,这一现状与其经济的发展不相适应,急需设立珠江三角洲政策性