论文部分内容阅读
在音乐标注领域,传统标注模型总是遵循一种固定的方式:从一组注释的歌曲出发,这组歌曲由音频的特征向量来表示,由此学习一系列对应不同标注的模型来进行预测。这种方式存在很大冗余;另一方面,大规模数据集的出现为模型设计带来了新的思路。因此,本文从近年兴起的深度学习入手,结合大规模的训练数据,探索更加简洁和准确的标注手段。具体来说,本文首先基于自动音乐标记研究的典型数据集:Magnatagatune数据集,对应不同的特征输入(梅尔频谱图、频谱图、梅尔频谱系数、原始音频)设计了 3种不同结构的卷积神经网络模型,对比了它们在同一数据集(Magnatagatune数据集)上的效果,发现梅尔频谱图、原始音频比频谱图以及梅尔频谱系数等特征在音频自动标记上有明显优势。然后我们设计了可视化模型来观察训练好的模型参数中不同层的卷积核对怎样的输入有最强的响应,并且可视化了这些响应。同时我们设计了不同深度的深度学习网络,在更大的数据集MSD(Million Song Dataset)的带标记的子数据集(last.fm)上进行了试验,发现在更大的数据集上,层数更深的模型明显优于浅的模型,该结果与计算机视觉领域的最新研究成果相吻合。同时,通过对比相同模型在不同数据集上的表现,我们能清晰地看到数据集大小的提升对于不同深度模型效果的重要影响。本文的贡献主要包括:(1)设计了多种结构的音乐自动标记的深度学习模型,在Magnatagatune数据集上对比了不同音频的中低层特征作为模型输入的效果,发现梅尔频谱图模型、原始音频模型的效果明显优于频谱图模型、梅尔频谱系数模型。同时,我们设计的原始音频模型在该数据集上取得了优于先前工作的 AUC(Area Under Curve)。(2)在更大的数据集MSD上对比了不同深度的模型的效果,发现深度更深的模型在更大的数据集上明显表现出优势,同时也启发我们数据集的大小对于发掘深度学习模型实际效果和潜力的重要影响。(3)可视化已训练好的模型,发现在梅尔频谱图模型中更高的卷积层中的卷积核对于频率的响应在一定程度上吻合了人耳听觉系统音阶响应的分布。