论文部分内容阅读
互联网技术的快速发展使音乐得以广泛传播,有效的提取、检索、组织音乐信息的方法,即音乐信息检索的研究受到了学术界和信息界的广泛关注。多基频估计是音乐信息检索领域的研究热点之一,基本任务是估计复调音乐中同时发声的多个音符,从而得到每个音符基频值、起始时间和终止时间的信息。目前的多基频估计方法还不能满足实际需求,因此对多基频估计方法的进一步研究显得尤为重要。本文以钢琴这种多声部乐器的复调音乐为研究对象。在基于非负矩阵分解的多基频估计方法的框架下,对音乐信号的时频表示、音符字典构建和谱分解算法进行了分析,研究采用基于多原子音符字典的,lp,qq范数块稀疏约束的非负矩阵分解算法,有效提高了单帧信号多基频估计的准确性;最后在非负矩阵分解的基础上研究直接在音符事件层而不是信号帧层面上的多基频估计方法。主要研究工作和创新点如下:1、对音乐信号分析中常见的多分辨率时频表示常数Q变换(CQT)进行了研究,发现虽然CQT在低频具有较高的频率分辨率,但同时也导致时间分辨率降低,首次引入变Q变换作为多基频估计音乐信号时频表示的工具,它相比CQT在相同的频率分辨率下有更好的时间分辨率,和高效的系数计算。2、研究基于单原子和多原子音符字典谱分解的方法。研究采用lp,qq范数稀疏约束的多基频估计,通过对单原子字典谱分解的实验表明p pl范数比常见的1l范数的多基频估计效果更好;针对音符在不同时刻的频谱变化非常明显,指出单原子音符字典并没有考虑到音符谱基原子动态变化的特点,然后分别从建模和学习两个角度介绍多原子音符字典的构建方法;最后在多原子音符字典基础上研究采用,lp,qq范数块稀疏约束的非负矩阵分解算法,实验结果表明,当原子个数为2时该算法对MAPS数据库音乐片段的单帧信号多基频估计的F值达到了近78%。3、基于非负矩阵分解的多基频估计方法都是对单帧信号处理,它没有提前对音符起始点进行检测,而是通过后处理检测结果得到音符起始点,这可能会出现伪起始点和在两个音符起始点之间将一个音符分成多个音符的错误。研究基于音符事件的方法,即首先对音乐信号进行音符起始点检测,然后采用基于NMF的方法对音符事件进行多基频估计,最后对音符事件中每个音符的终止点进行检测。