论文部分内容阅读
随着数字技术的高速发展以及互联网、无线网的高度普及,数字音乐的获取变得非常容易。如何从海量的数字音乐中检出用户需要的音乐,已成为当前亟待解决的问题。基于内容的音乐检索,例如样例检索、哼唱检索,采用音乐本身的特征进行音乐检索,人工标注量小,用户使用方便,已成为主流研究方向。现有音乐检索系统通常仅使用旋律特征对音乐进行查找,当演唱者出现哼唱错误时,易导致检索失败。歌词是歌曲除了旋律之外的另一个重要组成部分,它存在于口语或者音乐中,在很多情况下可以辅助旋律特征提高音乐检索的精度。本文围绕如何利用歌词辅助音乐检索,对口语歌词的识别、基于口语歌词的音乐检索方法,以及清唱音乐的歌词识别、基于歌词和旋律的哼唱检索方法等关键问题进行了深入研究。本文的主要工作及创新包括以下几个方面:1.提出了一种基于词激活力的类的语言模型口语歌词识别中语言模型数据稀疏问题较为突出。为了提高口语歌词识别的准确率,本文围绕数据稀疏问题进行了相关研究。基于类的语言模型与基于词的语言模型插值是常用的解决语言模型数据稀疏问题的方法。但是基于类的语言模型的性能依赖于词类的性能。基于词激活力的亲和度测度在描述词语相似度上取得了很好的效果,本文使用该测度对词进行聚类,并使用聚类结果训练类的语言模型,称之为基于词激活力的类的语言模型。由于同一词类中词相似性强,基于词激活力的类的语言模型能够获得比经典的基于类的语言模型更优越的性能。实验结果表明,基于词激活力的类的语言模型与基于词的语言模型的插值模型在口语歌词识别任务中表现出了优越性能。2.提出了一种基于多层滤波的检索算法口语歌词经过识别后,如何快速准确地查找到目标歌词是基于口语歌词的音乐检索的关键问题。为此,本文提出了一种基于多层滤波的检索算法。该算法首先对识别结果进行查询扩展,针对完全识别正确的识别结果,第一层滤波器利用索引能够快速匹配到目标歌曲;针对出现误识的识别结果,第二层滤波器能够找到一个较小的候选集合;第三层滤波器采用基于声学相似度的模糊匹配算法实现候选集合与识别结果的精确匹配。实验证明,本文提出的基于多层滤波的检索算法显著提高了基于口语歌词的音乐检索系统的性能。3.提出了一种歌词识别辅助的哼唱检索算法利用歌词特征辅助哼唱检索是一个值得研究的难点问题。现有的方法采用连续语音识别技术直接对音乐中的歌词进行识别,由于识别出的歌词不够准确,因此性能提升并不明显。本文提出了一种歌词识别辅助的哼唱检索算法,该算法首先利用旋律特征找到多个候选音乐片段,然后利用候选音乐片段的歌词搭建识别网络,并采用孤立词识别技术实现歌词识别,最后结合旋律匹配和歌词匹配的结果对歌曲进行排序。本文提出的算法利用旋律检索显著缩减了歌词识别的范围,大幅度提高了识别准确率。实验证明,歌词识别辅助的哼唱检索算法能够有效地利用音乐中的歌词信息,显著提高哼唱检索系统的性能。