论文部分内容阅读
如何从口益增长的多媒体资源中快速准确地定位已成为多媒体检索领域的研究热点,其相关技术的研究必将推动人机交互技术的发展,但目前基于内容的音频检索相对于基于内容的图像或视频检索来说发展滞后。哼唱检索是基于内容的音频检索的一个重要分支,是一种最自然、最方便的音乐检索方式,用户只需哼唱出一段旋律,就能在音乐数据库中检索出想要的歌曲。当前音乐检索支持的音乐格式主要是MIDI格式,而对MP3、WAV等格式的多音音乐检索的研究成果很不理想。本文在分析研究多音音乐检索的关键技术和难点问题的基础上,完成了哼唱输入的端点检测和目标音乐的音乐分割,改进并完善了基于基频矩阵的基音提取算法,归纳了用于音乐检索的DTW算法,实现了多音音乐的特征提取和特征匹配,最后设计实现了本文的多音音乐检索Music-Retrieval系统。本文主要研究的内容如下:(1)在分析音乐检索的原理和音乐乐理知识的基础上,选取了广泛用于音乐检索的旋律(音高、基音)特征来表征音乐;设计了基于内容的多音音乐检索的总体框架,分析了多音音乐检索的难点及本文研究实现的重点。(2)讨论了音乐信号的预处理,选用了基于频谱能量的端点检测算法实现了哼唱输入的端点检测,完成了对目标音乐的多音音乐分割,减少了后期特征提取和特征匹配的工作量。(3)仿真分析了基本的基于时域、频域的基音提取算法从含有复杂背景伴奏的目标多音音乐中提取基音特征的缺陷,在探讨现有的基于基频矩阵的基音提取算法的基础上,改进并完善了该算法,实现了在不能构造基频矩阵的情况下依然能够从目标音乐中提取到音乐的基音特征,并降低了计算的复杂度;(4)分析讨论了在语音识别领域中广泛使用的DTW算法用于多音音乐特征匹配的优缺点,归纳了适用于音乐检索的DTW算法,较好的克服了哼唱输入的音调误差,减少了匹配时间,实现了哼唱输入与目标音乐的特征匹配。(5)完成了本文Music-Retrieval系统的功能设计,采用VC++编程实现了该系统;采集了哼唱输入片段作为实验数据,完成了音乐检索系统的实验评测,包括算法的有效性实验,系统的检索性能、速度和精度等实验。