论文部分内容阅读
WEB3.0等领域的飞速发展为数字音乐的共享和传播提供了便利的同时,也使得在线音乐的数量呈爆炸式增长,引发了信息过载问题。一个可行的方法是对音乐进行标注。但是,人工标注非常耗费人力成本以及时间成本,因此我们需要计算机来为我们进行自动标注。 目前,未标注的歌曲数量远远超过了已标注歌曲的数量,造成训练数据极度匮乏的问题,从而无法对自动标注模型进行有效的训练。针对这一问题,本文提出了一种基于混合判别玻尔兹曼机(Hybrid Discriminative Restricted Boltzmann Machines,HDRBM)的自动标注算法。该算法通过融合算法结合了生成模型和判别模型的优势,从而解决了因缺乏数据集而导致的训练不充分的问题。同时,本文在HDRBM中加入了Dropout规则化方法进一步避免了由于训练数据匮乏所造成的过拟合问题。实验结果表明,一方面,HDRBM在训练数据集充足的情况下能达到与单一的判别玻尔兹曼机相当的效果,并且比SVM高了8%左右,另一方面,当在小规模训练集上训练时,HDRBM的准确度相比单一的判别玻尔兹曼机高了2%左右,比SVM高了5%左右。 尽管HDRBM能够在训练样本匮乏的情况下得到较为准确的标注结果,但仍是基于浅层特征的学习,依赖于人工提取的音乐特征,无法有效融合能表现音乐特性的多种乐理信息,因此很难达到理想的效果。为了进一步提高自动标注的准确性和有效性,本文研究了基于深度学习的音乐特性表示方法,并提出了一种基于卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆神经网络相结合(Long Short TermMemory,LSTM)的音乐自动标注模型。该模型通过构建多分辨率CNN结构实现了多乐理特征的联合提取,并利用LSTM对相邻音乐片段之间的时序特性进行分析以考虑音乐的长效结构信息。实验结果表明该模型在音乐的舞曲、流派、以及情感标注中均达到了非常高的标注准确率,远远超过了传统的基于手工特征提取或是其他基于深度学习模型的自动标注算法,并具有很强的泛化能力。