论文部分内容阅读
音乐是一类重要的音频数据,传统的音乐检索都是基于关键词的检索,使用受限。随着互联网的快速发展及数字化设备的普及,基于内容的音频检索研究得到广泛的关注。本文以国家自然科学基金项目“基于Web的音频识别与检索关键技术研究(No.60673100)”为背景,针对基于内容的音乐检索关键技术展开了深入的研究:提出了适合音乐检索的特征提取方法、相似度度量方法和检索算法,并研究语音识别中端点检测及连续词识别等技术,研究成果已应用于基于内容的音乐检索系统中。主要的研究进展如下:1)构建了音乐检索的处理框架和符号体系。在分析音乐检索存在问题的基础上,给出了研究思路;定义了歌谱映射方法及音乐检索中的符号体系,为基于内容的音乐检索打下基础。2)针对音乐特征的算法研究。将音乐特征分为低级特征(旋律轮廓)和高级特征(音乐歌谱)两部分。a)针对低级特征提出了一种旋律轮廓提取算法。此算法能准确地提取出哼唱曲子的旋律轮廓特征,当输入为基本音级时得出的特征值符合音程特征。但此算法要求用户对音调的把握要准确。b)针对高级特征将语音识别技术应用于音乐检索。为从包含歌谱的一段连续语音信号中确定出音符的起点和终点,需要使用端点检测技术,本文提出了一种基于熵和时间序列方法PAA的端点检测算法—PAAEPD(Piecewise AggregateApproximation End Point Detection),用户可直接哼唱歌谱检索目标音乐,对音调把握要求不高,只要发音准确即可实现检索。3)音乐检索算法的研究。a)针对音乐的时序特征定义了字符距离及特征字符串距离,并提出了一个字符串相似度计算方法。分析了音频等复杂数据近似检索的必要性以及现有的字符串近似匹配算法和时间序列相似检索的局限性,提出了本方法并应用于音乐检索中,对音调把握准确者获得92%的前十位检出率。b)提出了以句为单位的分层检索算法。音乐是以句为单位的,并且每句音乐的旋律波动和句子长度都是固定的。本文利用旋律波动和句子长度缩小搜索范围,使检索时间减少了25%。c)针对用户的哼唱习惯提出了跨句检索算法。用户哼唱多句时,数据库中保存的单句旋律轮廓信息不能使用,需要多句旋律特征,文中给出了候选音乐片段及特征生成算法,实现了跨句检索。4)音乐数据库的研究。本文采用音乐的原始歌谱作为库中数据来源,给出了音乐歌谱数据库的构成及数据库中的特征及含义和计算方法。5)将所研究的算法应用于音乐检索,实现了基于内容的音乐哼唱检索系统,取得较好的效果。研究成果可应用于其它类似的应用领域。