论文部分内容阅读
最近随着互联网和数字音频技术的发展,音乐信息检索MIR(Music information retrieval)逐渐成为研究热点。其中,对音乐风格进行识别是一项重要的研究内容;此外,乐器、歌曲情绪等的识别也是研究热点。目前音乐信息检索领域的识别分类系统主要流程是先手动提取音乐特征,再对分类器进行训练建模,最后把音乐特征输入建好的模型中进行识别分类。但现在手动提取音乐特征技术遇到了瓶颈。深度学习作为一种新的特征提取技术,已在图像处理、自然语言理解等领域拥有了出色的表现,因此本文利用深度学习强大的特征提取功能发现更适用于音乐识别分类的音乐特征,并设计不同的网络结构,基于这些音乐特征进行识别分类。首先针对大多基于时间特征的音乐风格识别分类性能不佳的问题,提出了考虑时间和频率两方面特征的HPSS(Harmonic/Percussion Sound Separation)分离算法,把原始音乐信号谱图分离成时间特征谐波分量和频率特征冲击分量,并联合原始谱图一起作为卷积神经网络(ConvolutionalNeuralNetwork,CNN)的输入;然后设计了 CNN的网络结构以及研究了该网络结构中不同参数对识别率的影响。随着音频数据的迅猛增加,当前主要的识别方法是对视觉特征使用固定的编码步骤,但其缺少学习能力,导致特征的表达能力不强,而且视觉特征维数较高,严重制约了识别性能。针对这些问题,本文提出一种深度哈希学习方法,利用卷积循环神经网络生成有效的哈希码。首先对音乐信号进行预处理获得梅尔声谱图,梅尔声谱图是音乐识别的首选输入类型,然后输入预先训练的CNN中,从其卷积层提取卷积特征图,广泛利用空间细节和语义信息,对每个卷积层的特征图使用双线性插值和相似性选择策略构建特征图序列,再将其输入LSTM(Long Short-Term Memory)和哈希层,最后使用softmax进行识别分类时提出了一个新的损失函数,其中考虑了哈希层输出二进制哈希码时产生的量化误差,并同时保持了哈希码的语义相似性和平衡性。通过实验证明此方法可以比其他方法获得较好的性能。