论文部分内容阅读
近年来,在移动互联网应用的快速发展和各档大型真人音乐选秀类节目的双重刺激下,歌曲演唱类APP蓬勃发展,同时也对音乐推荐系统带来了新的挑战。传统音乐推荐系统着眼于为用户推荐喜欢听的歌曲。而在歌曲演唱的应用场景中,仅仅根据用户喜好推荐歌曲并不全面,还需要考虑用户的演唱能力是否和推荐歌曲的演绎要求相匹配。然而,音乐推荐方法并没有伴随着应用场景的迁移而发生同步迁移。目前大部分歌曲演唱类APP依然停留在按照音乐分类、热度、用户点播记录推荐歌曲的状态,无法根据用户演唱能力画像推荐适合用户演唱的歌曲。为此,本文以演唱者演唱能力画像刻画为主要研究目标,以演唱者的清唱音频信号为研究对象,选取演唱者的演唱音域和音色作为其特质表征,进而构建了演唱者声音特质模型作为用户演唱能力画像,最终应用于歌曲个性化推荐之上,根据演唱者演唱能力画像,向演唱者推荐适合其声音特质演唱的歌曲。首先,本文提出一种基于威尔逊置信统计的演唱者演唱音域提取方法。该方法通过比对演唱者MIDI音高序列与歌曲标准MIDI音高模型,基于威尔逊置信区间评估演唱者在各个基本音级上的完成质量,确定演唱者的基本演唱能力,进而确立演唱者的演唱音域。实验结果表明经由本方法提取的演唱音域与实验对象演唱水平一致性程度较高。其次,本文对人声音色的表征和相似性度量方式进行探索,借助深度卷积网络强大的降维能力及特征学习能力,将高维的、时序的人声频谱特征嵌入到3维的音色嵌入空间中,从而在3维音色嵌入空间内实现音色相似性的可度量性。目前实验结果表明在包含15个歌手的音色嵌入空间中,歌手音色分类识别准确率达到73.12%,有效地保证了音色相似性度量的准确性。最后,本文综合演唱者的演唱音域及音色表征,建立其演唱者声音特质模型,并用于其演唱能力画像的刻画。同时,根据歌曲的简谱、伴奏及原唱歌手的音色表征等信息,建立歌曲基准模型。利用演唱者声音特质模型与歌曲进行音域以及音色匹配,得到适合演唱者演唱的个性化歌曲推荐列表。