论文部分内容阅读
近年来,由于数字音乐的快速发展,歌手识别、歌词对齐等技术需求不断增加。人声分离作为这些技术的一个重要组成部分,受到越来越多的关注。精确的人声分离能够有效地提高歌手识别、音频检索等技术的准确度和实时性。人声技术对于音频信号处理领域有着重要的研究价值。本文主要在矩阵分解的人声分离理论框架下,对基于非负矩阵分解、鲁棒主成分分解和低秩分解等人声分离技术进行了详细的研究。在此基础上,重点研究了鲁棒主成分分解技术,针对其不足提出了一种两步矩阵分解的人声分离算法。最后,为了对人声和伴奏部分进行更好的表达,本文使用一种深度神经网络的人声分离算法,可以有效提高人声分离的准确性。本文的主要研究工作及创新点如下:1.基于矩阵分解人声算法的研究1)首先研究了基于矩阵分解的人声分离算法,总结了矩阵分解算法的基本框架,对典型的矩阵分解算法,如非负矩阵分解算法、鲁棒主成分分析和低秩分解等算法进行了研究并仿真实验。结果表明,基于鲁棒主成分分析的人声分离算法对伴奏分离较彻底,且有很强的鲁棒性,综合表现效果最佳。2)针对鲁棒主成分分析的人声分离中的人声分离不彻底的问题,本文研究了一种基于两步的矩阵分解的音乐分离算法,首先使用鲁棒主成分分析的人声分离算法对音乐进行初步分离,然后引入谐波源分离算法针对分离出的不彻底人声进行二次分离,最后将两次分离的结果重新组合,即得到最终分离出的伴奏部分和人声部分。实验结果表明,基于两步的矩阵分解的音乐分离算法在保证原有算法鲁棒性的前提下,有效提高了分离的性能。2.基于深度学习的人声分离算法的研究针对矩阵分解算法对伴奏部分表达欠佳的问题,本文在深度学习理论基础上研究了一种基于深度神经网络的人声分离算法。由于深度神经网络能够使用逐层学习和非线性激活函数,所以能够对人声和伴奏进行更好的表达。同时,为了使得深度神经网络更好地利用音乐上下文信息,本文研究了一种基于深度循环神经网络的人声分离算法。实验结果表明,基于深度循环神经网络的人声分离算法能够较彻底分离出人声与伴奏,且稳定性较高。