论文部分内容阅读
多版本音乐或称为翻唱音乐是对具有相似主旋律音乐的统称。由于多版本音乐之间存在音色、基调、速度和结构等方面的差异,使得多版本音乐识别成为音频信息检索领域比较难的研究方向。多版本音乐识别通常包括两种形式:1)输入一段查询音乐,从数据库中返回所有判定为翻唱关系的版本,用来实现音乐推荐;2)给定一对音乐,判断两者是否具有翻唱关系,用作版权鉴定。随着大数据时代的到来,识别速度成为急需解决的问题,而当前多版本音乐识别的研究主要关注的是识别准确率问题,针对这一问题本文通过对时序shapelets算法进行改进得到一种快速多版本音乐识别算法,在准确率提升的同时极大提高了识别速度。音乐可以看成是由伴奏声和人声组合而成,基于这一事实,本文分别研究了基于Chroma特征和MFCC特征的多版本音乐识别技术。主要的研究及创新性工作如下:(1)基于Chroma特征的多版本音乐识别研究。对算法中特征提取,基调规整模块进行了分析;重点研究了动态时间规整算法,得出在多版本音乐识别中局部优化优于全局优化的结论,指出了算法中对结构规整考虑不足的问题。针对该问题引入了时序shapelets算法并根据音乐信号特点进行了相应改进。1)针对候选子序列的穷举问题,本文采用固定窗函数的方法,极大减少了候选子序列的个数;2)针对多版本音乐类别过多信息增益难以计算的问题,采用了基于类距离的判别方法;基于上述改进得到音乐子序列(MS)算法,显著的提高了识别速度。针对MS算法鲁棒性不够的问题提出了采用三段shapelets的Triple-MS算法,该方法与MS算法时间复杂度为一个量级但识别准确率更高。(2)基于MFCC特征的多版本音乐识别研究。研究了MFCC特征提取过程,针对传统MFCC特征识别准确率不够的问题,本文主要进行如下改进:1)针对梅尔滤波器组对临界带宽考虑不足的问题提出了基于临界等价矩形带宽的带宽设计方法;2)针对人耳对不同频率敏感程度不一的问题,采用了加权因子进行调整;3)用布莱克曼窗代替汉明窗增加对和声信息的考虑;依据上述改动得到EFCC特征使识别准确率得到提高。结合Triple-MS速度快与EFCC准确率高的特点得到了Triple-MS-EFCC方法在保证准确率的前提下提高了识别速度。