论文部分内容阅读
随着数字音乐和在线音乐服务的快速增长,音乐信息检索(MIR)已成为一个重要的研究领域。特别地,音乐流派识别(MGR)是MIR中的一个重要分支,因为MGR在音乐索引和检索的上下文中起着基础作用,提高音乐自动分类的准确性是部署强大的音乐信息检索系统的基石。在音乐流派识别这一任务中,大多数现有机器学习方法的特征工程阶段存在信息丢失或提取的特征不充分的问题。机器学习阶段则严重依赖于特征工程阶段中提取的特征,缺乏利用信息的能力。在这些方法中由领域专家设计的某些人工特征,往往缺乏通用性,无法很好地迁移到其他领域使用。随着深度学习模型在其他领域的广泛使用,MRG也开始出现了使用深度学习模型的方法。目前用于MRG的算法存在一些局限性。首先,音乐流派识别区别于图像识别,它具有复杂的内在模式,这些模式具有高度的多样性和不同的抽象层次。大多数深度学习方法只局限于全局特征而忽略了不同的抽象层次的局部特征及它们的依赖关系。其次,某些方法只使用单一的特征而忽略不同特征之间的互补性,无法为模型提供足够的区分信息。最后,一些集成学习的方法在结合多种特征的优点时只在决策级别对特征融合,这可能会忽略特征在早期时的交互关系。本文提出一种高效的基于多层次局部特征编码的特征融合算法用于音乐流派识别任务。在该方法中,受到Net VLAD和自注意力机制的启发,本文设计了一个特征编码网络去捕获音乐中不同层次的局部信息并学习它们之间的依赖关系。这是因为流派通常分布在音乐流的不同层次或时间尺度上。本文还考虑了散射转换特征和迁移特征相对于典型特征的互补性,丰富了特征的多样性,使模型学习到更充分的特征表示。散射转换特征是一种平移不变的特征表示,它对时间扭曲变形稳定的。迁移特征则是将源任务上训练学到的知识迁移到目标任务上。最后在模型集成时,本文使用元卷积神经网络来学习不同特征之间的交互关系,从而进行特征级别的数据融合,而不是组合来自独立分类器的决策。本文分别在GTZAN,ISMIR2004和Extended Ballroom数据集上进行了实验分别获得了96.50%,92.46%和95.50%的测试准确率,超过了其他模型达到了领先的水平。这证明了本文的模型网络的有效性和先进性。