论文部分内容阅读
盲源分离(Blind Source Separation, BSS)技术指未知混合过程和源信号的情况下从观测信号中分离出源信号的技术。随着盲源分离技术在最近十几年的发展,超定和适定盲源分离问题已经得到了很好的解决,当前的研究重点主要集中在欠定盲源分离问题上,其中单通道声乐源信号分离问题成为近年来研究的热点问题,单通道顾名思义就是只有一路观测信号,它由多路源信号混合而成。单通道声乐源信号分离在伴奏提取、基音提取、弦提取、歌词识别对齐等方面具有广泛的应用。本文主要研究单通道声乐源信号分离问题,具体任务就是将音乐中的歌声和伴奏分开。主要完成以下两方面工作:(1)结合非负张量分解(Nonnegative Tensor Factorization, NTF)技术和音乐伴奏的重复模式技术提出一种无监督的单通道声乐源信号分离方法。非负张量分解技术可以无监督的从单通道声乐混合信号中分离出歌声和音乐伴奏。重复模式提取技术利用音乐伴奏的周期性、自相似性即重复模式构成相应的重复模板,利用重复模板可以提取出混合信号中的周期性音乐伴奏。因此本文提出将非负张量分解技术和重复模式提取技术结合起来,利用音乐伴奏构成的重复模板提取非负张量分解每个分量信号中的重复伴奏,即可实现歌声和伴奏的分离。(2)在深入研究了深度递归神经网络(Deep Recurrent Neural Network, DRNN)模型的基础上,提出一种改进的、有监督的单通道声乐源信号分离方法。研究结果表明深度递归神经网络比深度神经网络能得到更好的结果,因此本文将深度递归神经网络应用到单通道声乐源信号分离当中,并用联合软模板训练深度递归神经网络,以进一步提高分离性能。为了改进声乐源信号分离的非相关性,通过改进区别训练的目标函数来提高整个神经网络的分离能力。微调学习速率可以使得网络避免局部极值,并加速收敛到全局极值,为了改进网络的泛化能力,通过自适应学习激活函数的参数,进一步提高了网络的分离能力。实验在MIR-1K数据库上进行。本文对所述两种方法做了大量仿真实验,并与已有算法进行了比较。实验结果表明,本文所提出的方法均取得了较理想的结果。