论文部分内容阅读
音乐作为热爱生活的人们的一种表现生活、享受生活的形式,其制作、存储、播放都随着信息技术的进步向数字化、集中化、共享化发展。基于内容的音乐信息检索技术正是这种变化趋势下的新技术和重要研究领域,而音符起始点检测算法是这个研究领域中的最重要研究方向之一,也是该领域其他研究方向的基础性研究工作。本文围绕音符起始点检测,做了以下几方面的工作:第一,在总结现有音符起始点检测算法的基础上,构建了音乐知识库启发下音符起始点检测框架,并在此框架下提出了分音波动特征。该特征通过乐理知识中的十二平均律,把构成音乐的各分音成分和信号的频率联系起来。分音波动特征是从音乐知识库提取先验知识分析而得到的,更具音乐固有特性和符合音乐心理学特点。第二,提出了基于连续小波变换的分音波动检测算法。该算法既能克服短时傅立叶变换的时频窗在音乐信号分析过程中固定不变的缺点,又能克服离散小波变换算法中二进尺度跨度大,难以区分八度内的音符的弱点。该算法首先在连续小波变换下对音乐信号进行分解,提取分音波动特征,并生成检测函数。随后,使用双边指数光滑算法和移动窗口归一化技术处理检测函数曲线,最后设定阈值,生成音符起始点。第三,提出了基于常量Q变换的分音波动检测算法。常量Q变换不同于传统的信号变换方法,它的相邻谱线的频率间隔是呈指数增长的,这与分音的频率分布如出一辙。在音符起始点检测算法中引入常量Q变换提升了检测性能。该算法还具有执行速度快的优势。最后,研究了基于稀疏分解算法的音符起始点检测。冗余字典下的稀疏分解,对信号具有更强的适应性,能抓住信号的固有特性。本文采用匹配追踪算法实现稀疏分解,并提出了匹配追踪下的基于解释程度和基于分音波动的两种音符起始点检测算法。这两种算法均在匹配追踪算法分解音乐信号的基础上分析码本,并利用基于高斯核光滑的改进峰值提取算法生成音符起始点向量。实验结果表明这两种算法都有一定的理论和实践价值,对现实生活中占最大比重的混合音乐类型来说,匹配追踪下的分音波动检测算法相对其他算法有着更显著的优势。本文还探讨了融合检测算法对整体检测性能的作用。本文对全部算法采用Matlab进行编码,并在一个统一的音乐数据集下进行实验,对实验结果采用国际通用的评估标准进行评价和比较。实验结果表明本文提出的算法是理论可行,实践有效的。