基于内容的音乐哼唱检索系统关键技术研究及实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:YX19781987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字音乐技术的迅猛发展和手机等移动设备存储容量的增加,如何快速、有效地检索音乐信息成为迫切需要解决的问题。传统基于文本的检索方法,只能对有标注的数据信息进行检索,这需要人工先对这些信息进行描述和分类,随着数据库容量的不断增大,人工输入标注属性的方法不能满足人们对海量信息的需求,且人工对音乐的描述属性高度主观,难以表达蕴藏在音乐数据中丰富的内容以及内容感知描述的直观性。此外,随着数据容量的增加,用户很难记住所有数据的描述信息。因此,希望找到一种更加方便、快速的检索方法。 基于内容的检索方式不依靠标注信息,它从新的角度来管理音乐信息。根据音乐中的旋律、音高、节奏等信息进行检索。哼唱式音乐检索是基于内容的音乐检索方法之一,它允许用户通过哼唱的方式来查找所需的歌曲。本文以此展开研究工作,要实现基于内容的哼唱式音乐检索系统必须对三个方面的内容进行研究。首要问题是如何从哼唱信号中有效的提取旋律特征信息。由于哼唱音符的准确切分,即音高提取和音长切分的准确与否直接影响查找效果,因此这是哼唱音乐检索系统的关键问题之一,本文中采用了基于凸出度的音符切分方法;其次,如何从复合音、多音轨乐曲中提取主旋律特征信息,我们采用了当前大部分哼唱检索系统广泛使用的单音轨的MIDI数据库;最后,就是如何提高检索的速度,本文中通过对线性伸缩、动态时间规整及字符串相似匹配算法的性能比较,在试验部分观察了它们在检索上的识别效果,讨论他们的优点和缺点。我们对线性伸缩算法进行一定的改进,提出了分段线性伸缩算法,很好的解决了哼唱不一致的情况;我们还讨论了基于歌唱片段的不定长分割方法用于哼唱片段的模糊匹配。
其他文献
网络的迅速发展和计算机存储技术的不断提升使得数据量爆炸式增长,人们要从海量数据中挖掘出有用信息越来越难。数据挖掘是指从数据库中发现未知的、对决策有潜在意义的知识
AVS(Audio Video Coding Standard)是我国拥有自主知识产权的第二代音视频编码标准,具有先进、自主、开放三大特点。2006年AVS标准的第二部分,即AVS视频标准,正式成为国家标准。
射频识别(Radio Frequency Identification,简称RFID)技术是通过无线射频信号来达到非接触式自动识别信息并进行双向通信。伴随着该技术的持续发展,其社会领域中的运用正日益
由于宽带移动通信系统的无线信道的频率选择性和时变特性,OFDM信号需要在解调前进行必要的信道估计,补偿由于无线信道由于多径效应和多普勒效应引起的信道衰落,从而提高系统的误
多址干扰是影响CDMA系统性能和容量的主要因素。传统多用户检测器将多址干扰看做高斯白噪声因而降低了输入信干比,影响了系统性能。多用户检测在传统检测技术基础上充分利用所
视频图像修补技术是近年来数字媒体领域倍受关注的研究热点。视频图像修补是在保证视觉效果的基础上,对视频中感兴趣的目标物进行移除或对视频中缺失区域进行填充的一项技术
由于超声成像具有无创伤性、应用面广、操作方便灵活、安全可靠而又价格低廉等优点,超声成像是继X射线成像之后发展最迅速、推广应用普及最快的一种医学成像技术。常规二维超
在全球3G及增强型3G网络商用化进程稳步推进的同时,为满足移动宽带数据业务对传输速率的要求,研究开发速率更高、性能更先进的新一代移动通信技术正成为世界各国和相关机构关注
虚拟仪器是基于计算机的仪器,近年来发展迅速,也得到了越来越广泛的应用。而USB总线作为一种新兴的计算机外设总线标准,由于易用、支持热插拔、总线供电、传输速率高等特点,已经
在今天的互联网时代,人们生活、社交、工作的每一个环节都将生成海量多媒体信息。图像是信息传播中的不可缺少构成,视频信息的基石。图像不可替代,已然成为人们生活不可或却