论文部分内容阅读
随着网络技术的不断发展,越来越多的人们希望通过网络寻找到他们感兴趣的东西,如音乐、图片等。人们的这种需求对多媒体检索提出了新的要求。音乐检索是继图像检索之后在基于内容的检索领域中发展起来的研究新热点。作为基于内容的音乐检索的一个分支,哼唱检索为用户提供了一种全新的检索方式,使得用户可以通过哼唱音乐片段的方式,在大规模的音乐数据库中快速的寻找到目标歌曲。
目前对哼唱检索系统的研究大部分都是针对MIDI格式的检索,对WAV等波形文件格式的处理研究的较少。本文以基于语义的多媒体资源库中的音频检索为背景,针对波形文件进行研究,研究的三个主要问题是哼唱声音的特征提取和表示,声音和旋律的检索匹配以及哼唱检索测试系统的搭建。本文紧紧围绕着这三个问题,开展了以下研究工作:
1.在对哼唱检索理论进行较深入的研究基础上,结合多种音乐的乐理特点和音乐的数字化表示,给出了哼唱检索引擎核心模块的具体研究方案。
2.研究数字信号处理和语音识别技术在旋律特征提取中的应用。对时域分析法和频域分析法作了细致的分析和研究。在哼唱片段处理过程中,给出了信号预处理、基音提取、提取后处理等相关步骤的具体实现方法。提出了将端点检测应用到基音提取算法中以区分哼唱声中混杂的无声段和噪声段,使得音符切分的结果更为准确。
3.通过对音乐信号基本理论的研究,使用音高差和音长差的方法来表示音乐旋律,尽可能多的保留了音乐的旋律信息,极大的提高了旋律匹配模块的准确度。同时,采用线性对齐匹配算法计算哼唱旋律与数据库中乐曲的相关度,通过对音符单位的线性扩展和对齐匹配,有效提高了系统检索的准确性。
4.最后,设计并实现了一个基于内容的音乐哼唱检索测试系统,通过多项测试,对系统的检索效果进行了评价和分析,并总结了对检索结果产生影响的各种因素。测试数据表明,本文研究的旋律特征提取与旋律表示方法确实能够提高系统检索的准确度,平均能将检索成功率提高5个百分点左右。
本文围绕旋律的特征提取和表示、旋律的检索匹配以及哼唱检索系统的搭建等三个主要问题进行研究,重点研究了旋律特征提取和旋律的表示方法。提出采用语音识别技术中的端点检测方法对音高序列进行端点切分,使得最后得到的基音曲线更为准确。通过哼唱检索测试,得出了有一定价值的理论思想与可行的实际应用成果,有助于旋律特征提取在更加准确与快捷的同时,更加方便与易于操作,为基于内容的多媒体数据检索,特别是对旋律和波形文件以及音乐检索的研究,提供了新的实现途径。