基于曲段旋律特征的哼唱检索

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:michael_lv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于内容的多媒体检索目前是多媒体检索中的研究热点。其中在音乐检索中,哼唱检索是基于内容的检索方式之一,同时也是最为直接的音乐检索方式。哼唱检索由三大模块组成,即哼唱处理,数据库建立以及匹配模块。本文重点研究了哼唱处理和数据库建立这两大模块。大部分哼唱检索的研究者将注意力集中在匹配模块,很少有人重点研究另外两个模块。本文的研究内容就是针对这两个模块。对于哼唱处理,最重要的是从哼唱曲段中提取旋律,本文提出了两种旋律提取方法,一种是基于规则的方法,一种是基于半音域频率系数的方法。基于规则方法的思想在于从频谱中分析基频的位置,与自相关、平均幅度差函数等方法相比,其运行速度更快,而且更加准确。基于半音域频率系数的方法,其思想在于分析每一个半音值属于主旋律的概率,从而得出一个最优的旋律曲线。从理论上分析,前者适合于从哼唱曲段中提取旋律,后者适合于从波形音乐中提取旋律。在数据库建立方面,本文研究了基于MIDI音乐的数据库和基于波形音乐的数据库。对于MIDI音乐数据库,提出了基于规则的选择主音轨的方法;对于波形音乐数据库,采用半音域频率系数这一特征,并且结合Viterbi算法查找旋律曲线。提取音乐的旋律之后,构建了二级索引,第一级索引是旋律曲线的一些曲调特征,第二级索引是旋律曲线的外形特征。在匹配时,通过前两级索引的初步筛选,将候选歌曲的数量大大减少,再使用常用的动态时间弯折方法进行精确匹配,并给出最终结果。在哼唱检索中,最终结果以候选列表的形式给出。实验证明,本文的方法能够使TOP-3的正确率达到约71%,TOP-5的正确率能够达到88%,TOP-10的正确率达到94%。
其他文献
网络环境的改善,让视频的接受度不断抬升,图片和文字已无法满足用户的社交需求,普通用户越来越愿意通过原创视频来表达情感,如何快速有效的制作个性化的视频成为普通用户的迫
当前,容错计算已经在很多领域取得成绩如:微型机、航天、航空、舰船等专用微型容错机的普遍应用。然而,新的计算模式的发展,为容错提出了新的挑战。高性能容错计算机可以预测
随着数字信号处理技术和嵌入式技术的快速发展,数字信号处理芯片(简称DSP芯片或DSP)在通信、自动化等多个领域中的应用越来越广泛。DSP芯片应用的不断增长以及应用系统复杂性
优惠券是商家的一种重要促销手段,优惠券分为纸质优惠券、电子优惠券二种。目前比较传统也是使用最广的是纸质优惠券,主要通过人工散发,是一种粗放式的宣传手段,效率低下。随着互
目前主流的编码标准的压缩性能比以往的任何标准都提高了一倍以上。但是在网络带宽受限情况下,这些视频编码技术仍旧难以达到令人满意的效果。因此如何在网络带宽受限情况下
时间序列数据普遍存在于生活中各个方面的应用领域中。一般的,时间序列数据是一个包含时间戳及数值的有序序列。近年来随着传感网络等技术的发展,在金融、医疗、交通、环境监
随着新一代测序技术的发展和千人基因组计划的进行,越来越多的个人基因组序列已经被检测出来,个人基因组的数据也在飞速增长,数据量非常庞大。如何完成对个人基因组数据的收
为了更好发展服务业,需要一个优良的服务系统提供依据。所谓服务系统可以看作是一种社会化的技术系统,是服务的提供者与需求者之间按照特定的协议、通过交互以满足某一特定顾
随着网络技术的迅速发展,P2P网络技术得到了广泛的应用。P2P技术不断发展的同时,各种P2P业务应用产生的网络流量成为网络带宽的最大消费者,占用网络绝大部分资源,给管理和控制P2P
进入后基因时代,利用计算模型模拟几体心脏的生理活动,研究心脏的作用机制已成为一个新兴的热门研究领域。研究者利用计算模型,模拟从离子通道到几体心脏的生理活动,建立了心肌细