论文部分内容阅读
哼唱检索是一种基于内容的多媒体检索技术,是信息检索领域的研究热点之一。特征提取是哼唱检索中的关键技术之一,也是本文的研究重点。特征提取部分一直存在哼唱特征不稳定的问题,造成这个问题的主要因素是哼唱人声个性化的差异,包括哼唱人的哼唱音调不同、哼唱人的音域不同、哼唱节奏变化三个方面。而在这三个问题中,以往的研究提出的方法,如局部音高统计直方图特征,已经能够较好的解决音调与音域不同带来的问题,而哼唱节奏变化的问题一直得不到有效的解决。本文针对哼唱检索中特征提取部分的特征不稳定问题,特别是哼唱节奏变化带来的不稳定问题,进行了以下几点研究,希望从旋律中挖掘本质的、稳定的信息,从而进一步增强哼唱特征的稳定性。1、改进了基于局部统计的哼唱特征提取方法音高统计直方图特征是通过将音高向纵向音域上进行区间分布投影统计,从而得到对音调、音域差异相对稳定的特征。在此基础上,本文对音高投影统计的算法进行了改进,提出了一种基于所处区间位置的投影权重分配方法。为了解决节奏变化带来的不稳定问题,并提出了节奏统计特征,作为音高统计特征的补充,首先提出了基准节奏的概念以及估计算法,然后使用基准节奏对旋律片段的音符长度进行规整,使得规整后的旋律片段对哼唱节奏的变化不敏感,最后将节奏序列进行投影统计,得到与局部音高统计直方图类似的特征。实验结果表明,通过音高特征与节奏特征的联合,有效的提高了哼唱特征的稳定性与区分性,对于不同用户在哼唱中表现的音调、音域、节奏变化等方面的差异有很好的鲁棒性。2、提出了一种基于旋律极值点的哼唱特征提取方法音高与节奏的局部统计特征在一定程度上解决了哼唱特征提取中存在的问题,但哼唱节奏变化不仅影响了特征本身的稳定性,还影响了特征提取基元的选择。针对这个问题,本文提出了基于旋律极值点的特征提取基元选择方法。旋律极值点存在提取错误的问题,本文从优化极值提取方法和设计鲁棒性特征结构两方面来解决该问题,并根据旋律极值点的特性对特征扩展方法进行了调整。旋律极值点对哼唱节奏的变化有很强的鲁棒性,通过旋律极值点来定义特征提取基元,可以使得特征提取基元本身就对节奏变化具备很强的鲁棒性。同时通过旋律极值点对旋律结构进行分析,与以往的线性伸缩加滑动窗的穷举法相比,能够大大降低索引量,从而节约计算资源,减少检索时间消耗,提高哼唱检索系统的实时性。最后,通过实验验证了本文提出方法的有效性。在包含5000首MIDI的音乐库中,用1153首哼唱片段进行查询,在基于局部敏感哈希的哼唱检索实验中,本文算法的top1准确率达到88.6%,top5准确率达到92.8%,MRR达到0.908,平均检索时间消耗为1.92s,与基于线性伸缩与滑动窗的穷举法的哼唱检索系统相比,能够保证检索准确率相差很小的基础上,大幅度减少检索时间消耗,说明了本文算法的有效性。