论文部分内容阅读
音乐流派分类,是音乐信息检索中一个关键环节,不同的用户对各流派的音乐喜爱程度差异也有霄壤之别。无论何许流派,一首音乐的组成十分复杂,伴奏的乐器多种多样,人声的差异也十分显著,各种元素的和声更是千变万化。构建一个良好的音乐分类体系,可以有效减少用户对于喜爱音乐的检索耗时,提高用户体验。早期音乐流派分类主要是通过专业人士听音注释,这种方法无疑费时费力。引入机器学习的方法之后,最初是以人工判断的方法决定可能用到的声学特征,提取音乐中的这些特征训练分类器,从而实现音乐流派分类。这类方法不稳定性较大,需要手工设计特征集,因此一定程度上依赖个人经验判断以及专业知识,因此准确率难以提高。针对以上问题,本文基于深度学习的思想和卷积神经网络的结构特性,设计了以频谱图为输入的音乐流派分类模型,提供了音频分类识别的新思路。主要工作有:1.将音乐文件通过短时傅利叶转换、梅尔变换和常数Q变换及可视化处理生成对应频谱图,研究了三者所能呈现的可视声学特征,及三者之间图像化声学特征的直观差异,并举例对比了不同流派所生成的图谱。从输入到输出设计了完整的架构,搭建出基于频谱图的卷积神经网络分类模型,利用卷积神经网络的高效性和强大的特征学习及分类能力减少了人工处理的时间和成本。在GTZAN(George Tzanetakis)数据集上,该模型有着71.34%的分类精度,领先于其他常见机器学习算法。2.针对原始模型在输入数据以及网络架构方面的不足,本文提出了改进的卷积神经网络分类模型。新模型在GTZAN数据集上的分类精度最优可达92.21%,相比原始模型性能又有了进一步的提升。未来还将在特征分析、模型的加速以及数据规模方面进一步优化模型性能,将其更好的应用于音乐信息检索领域。