论文部分内容阅读
由于多媒体信息检索技术正面临不断增加的新的检索、分类需要,基于内容的多媒体信息检索成为目前最主要的研究内容。它借鉴了机器学习、数据库管理、人机交互、信息检索等领域的知识对多媒体数据的内容进行特征表示和分类。在应用方面,多媒体信息检索分为三大类:图像检索、视频检索和音频检索。其中基于音频的分类检索技术作为多媒体检索技术中最普遍应用的检索分类方式被广泛关注。
本文提出了面向MP3的音乐分类系统的音乐特征提取与分类方法。主要工作如下:
1)总结常用的音频、音乐特征表示方法和分类方法。
2)借鉴语音识别技术提出MP3音乐特征片段提取方法,利用MP3解码过程中体现的特点,提取音乐片段在经历改良式反离散余弦变换(IMDCT)过程前的所有的频段系数,采用这些系数的统计特征对音乐片段进行特征表示,同样对音乐文件的多个连续的特征片段进行统计,对音乐文件进行特征表示。
3)采用学习分类器(LCS)和其他学习分类器对样本库的音乐文件进行分类。进行10折交叉验证比较分类器性能,并对不明类别的音乐文件进行类别预测。
本文在MP3音乐分类方法上的主要贡献:
1)将MP3音乐文件的音乐特征片段进行提取,利用特征向量序列的统计参数对MP3音乐文件进行特征表示;
2)利用MP3音乐特征表示中特征属性的大量实数值,采用复杂学习分类器(XCSR)分类方法对音乐文件进行分类。
实验表明,MP3音乐特征片段提取方法可以在最短时间内找到该音乐片段中最具有代表性的片段。在系统的分类方法比较中,采用复杂学习分类器比其他分类器在对不明类别的音乐文件进行分类时,具有相对优越的性能表现。