论文部分内容阅读
数字音乐市场飞速发展带来了海量的数字音乐资源,在此背景下作为音乐的结构化信息组织方式的标签越来越重要。音乐标注一般是指通过生成音乐标签来对高层次的音乐语义进行描述,利用生成的音乐标签可以实现对大量音乐资源的高效管理、快速检索甚至个性化推荐。目前工业界常用的解决音乐标注问题的方法,如人工标注、社会化标注等方式在数字音乐时代都面临着成本和质量问题。解决这一问题最有效途径之一就是提升自动标注模型的预测效果,基于内容的音乐标注任务成为了目前工业界和学术界的一个研究重点。然而传统的标注算法中仍存在着很多亟待解决的问题,包括特征设计过程中的噪声、分类器浅层结构的限制以及信号分析的短时间范围。近年来深度学习算法在学术界备受关注,其在图像、语音领域取得的进展表明该算法在音乐信息检索领域有很大潜力,可以期待其全面提升自动音乐标注任务的完成度,基于深度神经网络的音乐自动标注模型引起了研究者们的广泛关注。本文采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对华语歌曲,利用音乐在时间上的相关性从音乐的歌词文本、音频信号等原始信息中提取出高层抽象属性。由于目前音乐信息检索领域十分缺乏完整的中文音乐标注数据集,本文还构建了两个完备的标注音乐数据集以供进行实验验证。首先本文以歌词文本的字向量作为输入信息,提出了基于卷积神经网络的音乐自动标注模型。通过实验探讨了不同的输入表示方法、网络结构和超参数对模型性能的影响,验证了基于卷积神经网络的音乐标注模型的优良性能。然后本文以音频信号的梅尔频谱作为输入信息,提出了基于卷积神经网络的音乐自动标注模型,并在多个数据集上对模型效果进行了验证。还联合卷积神经网络和循环神经网络提出了一个混合网络结构模型,结合了两种网络结构的特性从音频信号中分段抽取深层表示再构成序列,有效地提高了自动标注效果。最后本文在前两个工作的基础上进一步提出了基于深度神经网络的多模态音乐自动标注模型。同时使用歌曲的音频信号和歌词文本,通过卷积神经网络分别提取歌词和音频的深层语义特征,然后将两种深度特征联合起来训练模型输出音乐标签。通过实验证明,该多模态音乐自动标注模型相比于仅输入音频信号或仅歌词文本的音乐自动标注模型效果均有所提高。