论文部分内容阅读
随着互联网的普及和多媒体技术的飞速发展,网络上的音乐数量呈现了爆炸式的增长。与此同时越来越多的用户开始使用网络音乐应用,带来了多样化的音乐信息需求。因此,如何自动地对海量音乐数据进行有效的组织和管理,以及如何从音乐中提取各种不同的信息成为了亟待解决的问题。音乐信息检索就是在这种背景下诞生和发展起来的研究领域。在本文中,我们关注音乐信息检索中的两个重要任务,即音乐识别和单声道歌声分离。我们为这两个任务分别提出了一种和两种新算法。这共计三种算法均采用了时频分析的方法,它们都包括了首先将音乐信号变换为一种时频表示,然后基于这种时频表示对音乐进行时域和频域的同步分析。为解决音乐识别对时间伸缩和音高平移的鲁棒性问题,我们提出了一种基于时频谱图尺度不变特征变换(Scale Invariant Feature Transform, SIFT)的音乐识别算法。在研究中我们发现,音乐的时间伸缩和音高平移可以被分别描述为相应的对数频率尺度时频谱图图像的时间轴伸缩和频率轴平移,而SIFT正是一种对图像伸缩和平移具有较强不变性的图像特征。因此,从时频谱图图像中提取的SIFT特征也表现出了对音乐时间伸缩和音高平移的鲁棒性。为解决单声道歌声分离问题,我们首先提出了一种基于两层时频谱图分解的新算法。在算法的两层中,我们分别为输入歌曲构建长窗口和短窗口的时频谱图并对时频谱图进行非负矩阵分解(Non-Negative Matrix Factorization, NMF).我们设计了一种频谱不连续性的阈值判定方法来从长窗口NMF中选出谐和乐器分量,以及一种时间不连续性的阈值判定方法来从短窗口NMF中选出打击乐器分量。通过将选出的分量删除,歌曲中的谐和和打击乐器伴奏被分别消减,而歌声不受影响。除上面的方法外,我们还提出了一种对传统的基于音高的歌声分离算法的改进。改进后的方法增加了使用NMF将歌曲的时频表示分解为一组互不相交的时频块,每个时频块来自于唯一一个声源。与歌声音高所带来的谐波结构信息相配合,这些时频块能够显著提高歌声分离的性能。