歌词识别辅助的音乐检索研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:fengliufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字技术的高速发展以及互联网、无线网的高度普及,数字音乐的获取变得非常容易。如何从海量的数字音乐中检出用户需要的音乐,已成为当前亟待解决的问题。基于内容的音乐检索,例如样例检索、哼唱检索,采用音乐本身的特征进行音乐检索,人工标注量小,用户使用方便,已成为主流研究方向。现有音乐检索系统通常仅使用旋律特征对音乐进行查找,当演唱者出现哼唱错误时,易导致检索失败。歌词是歌曲除了旋律之外的另一个重要组成部分,它存在于口语或者音乐中,在很多情况下可以辅助旋律特征提高音乐检索的精度。本文围绕如何利用歌词辅助音乐检索,对口语歌词的识别、基于口语歌词的音乐检索方法,以及清唱音乐的歌词识别、基于歌词和旋律的哼唱检索方法等关键问题进行了深入研究。本文的主要工作及创新包括以下几个方面:1.提出了一种基于词激活力的类的语言模型口语歌词识别中语言模型数据稀疏问题较为突出。为了提高口语歌词识别的准确率,本文围绕数据稀疏问题进行了相关研究。基于类的语言模型与基于词的语言模型插值是常用的解决语言模型数据稀疏问题的方法。但是基于类的语言模型的性能依赖于词类的性能。基于词激活力的亲和度测度在描述词语相似度上取得了很好的效果,本文使用该测度对词进行聚类,并使用聚类结果训练类的语言模型,称之为基于词激活力的类的语言模型。由于同一词类中词相似性强,基于词激活力的类的语言模型能够获得比经典的基于类的语言模型更优越的性能。实验结果表明,基于词激活力的类的语言模型与基于词的语言模型的插值模型在口语歌词识别任务中表现出了优越性能。2.提出了一种基于多层滤波的检索算法口语歌词经过识别后,如何快速准确地查找到目标歌词是基于口语歌词的音乐检索的关键问题。为此,本文提出了一种基于多层滤波的检索算法。该算法首先对识别结果进行查询扩展,针对完全识别正确的识别结果,第一层滤波器利用索引能够快速匹配到目标歌曲;针对出现误识的识别结果,第二层滤波器能够找到一个较小的候选集合;第三层滤波器采用基于声学相似度的模糊匹配算法实现候选集合与识别结果的精确匹配。实验证明,本文提出的基于多层滤波的检索算法显著提高了基于口语歌词的音乐检索系统的性能。3.提出了一种歌词识别辅助的哼唱检索算法利用歌词特征辅助哼唱检索是一个值得研究的难点问题。现有的方法采用连续语音识别技术直接对音乐中的歌词进行识别,由于识别出的歌词不够准确,因此性能提升并不明显。本文提出了一种歌词识别辅助的哼唱检索算法,该算法首先利用旋律特征找到多个候选音乐片段,然后利用候选音乐片段的歌词搭建识别网络,并采用孤立词识别技术实现歌词识别,最后结合旋律匹配和歌词匹配的结果对歌曲进行排序。本文提出的算法利用旋律检索显著缩减了歌词识别的范围,大幅度提高了识别准确率。实验证明,歌词识别辅助的哼唱检索算法能够有效地利用音乐中的歌词信息,显著提高哼唱检索系统的性能。
其他文献
<正> 建国三十五年来,学校体育工作在普及与提高相结合的方针指导下,获得了显著的成绩和长足的进步。但长期来,在学校体育工作中存在着两种片面的认识和做法。一种是片面地强
<正>我谨以中国风景园林学会名誉理事长和我个人的名义,对学会的学刊《中国园林》创刊30周年致以最热烈、最诚挚的祝贺。感谢几代主编和全体工作人员30年来对学会的贡献。30
风景园林因其广泛的美学、生态、社会与文化价值已经成为当代人居环境的重要组成部分。然而,当代的风景园林设计在成本控制方面缺乏系统性的理论指导,在建造与维护的过程中消耗
<正> 我市有人口36万,学校182所,学生75739人。自党的十一届三中全会以来,我局认真贯彻党的教育方针,重视学校体育工作,1983年,省政府授予我局为“群众体育工作先进集体”。
“公共空间-公共生活”调研法(即PSPL调研法)是扬&#183;盖尔开展“公共空间和公共生活关系”研究并用以指导设计的主要方法。该法旨在通过有效地了解和掌握人们在公共空间中的
自《学校体育》创刊以来,得到广大学校体育工作者的关心和支持。编辑部收到不少读者来信,现就有关问题答复如下。
<正> 1985年3月15日~21日教育部在广州召开了“编写中等专业学校体育课教学大纲座谈会”,来自14个省市自治区的40多位代表参加了会议。座谈会的目的是为了推动、促进中专体育
<正> 亲爱的读者: 值此1983年新年之际,我们编辑部全体同志,向你们表示热烈的祝贺和衷心的感谢.祝贺你们在过去的一年里为开展学校体育活动,为增强学生体质取得了丰硕成果.感