论文部分内容阅读
语音作为一种便携的信息交流工具,在日常生活中被广泛使用。近年来,数字信号处理和语音通信技术得到迅速发展。随着人们对语音通信质量要求的不断提高,通信设备的功能需求也逐渐增长。总体上讲,语音通信的质量主要取决于语音分离(SS)的程度。SS在现实生活中有许多潜在的应用,如通信、助听器、自动语音识别、医疗、多媒体、辅助生活系统、类人机器人、鸡尾酒会问题等。在这些应用场景中,可靠的SS技术对于确保整体系统的鲁棒性起着至关重要的作用。然而能像人类听觉系统一样灵活的自动SS系统还没有出现。SS是一个富有挑战性的课题,具有重要的理论意义和广阔的发展前景,因此成为了当前的研究热点。研究者们提出了各种SS方法,其中大多数都是在短时傅里叶变换(STFT)域进行的。STFT对时域输入信号进行加窗分帧,并假设每一帧的信号是平稳的。这引入了窗函数的概念。关于窗函数的窗长设置问题,若选取较窄的窗长,所得到的谱有较高的时间分辨率,以及更好的短时平稳特性,但是频率分辨率会降低;若选取较宽的窗长,可以实现较高的频率分辨率,但时间分辨率和短时平稳性却变得不理想。由于存在时频分辨率的矛盾,我们难以通过STFT将时间与频率信息进行准确的对应。非负矩阵分解(NMF)通常直接处理信号在STFT域中的幅度谱,这会引入信号分解时的误差,从而导致重构性能的下降。另外大多数基于STFT和NMF的扩频方法只考虑幅度信息,而忽略相位信息。虽然语音信号的幅度部分对于语音的恢复至关重要,但相位部分也是不容忽视的。为了恰当地解决这些问题,我们通过小波变换将时域信号分解成低频和高频分量,分别对应为近似系数和细节系数。其中低频分量包含着主要的信息,高频分量可以忽略不计。在第一项工作中,本文提出了一种新的源分离方法,该方法利用双树复小波变换(DTCWT)和STFT组成双域变换框架,并结合稀疏非负矩阵分解(SNMF)对幅度谱进行处理。基于STFT的源分离方法面临着时间和频率分辨率的问题,而采用离散小波变换(DWT)又会产生时变相关的问题(即,时域信号的微小时移会导致小波系数的显著变化)。考虑到这些问题,我们首先使用DTCWT,它由包含不同的滤波器集合的两级树结构组成,并能对移位不变性提供额外的信息进行分析和近似,这些特性使得它具有更好的时域信号重建能力。通过DTCWT,时域信号被转换成一组子带信号来区分低频和高频成分。对每个子带信号进行STFT,可以构造出一系列复值谱。然后,应用SNMF将两个源信号的幅度谱分解为基向量的加权线性组合。最后,根据子带二元比率掩模计算出优化的估计信号后,依次进行逆STFT(ISTFT)和逆DTCWT(IDTCWT)得出时域的分离结果。采用GRID音视频数据库和TIMIT语料库的数据,我们对提出的方法进行了验证。实验结果表明,该方法的性能优于现有方法。在第一项工作中,我们仅考虑了幅度信息而忽略了相位信息。虽然幅度对于纯净语音的估至关重要,但是相位部分的提升也是不容忽视的。这促使了我们在第二项工作中研究复数谱估计对于语音分离的影响。在第二项工作中,本文提出了一种基于双域变换的单通道SS(SCSS)算法,该算法串行使用DTCWT和STFT,并通过SNMF对信号谱的幅度、实部和虚部分量进行分解。首先,我们使用DTCWT将时域语音信号分解为一组高、低频的子带信号,其中低频子带信号保留,高频子带信号置零。然后对每个低频子带信号进行STFT,构造复值谱。通过SNMF将谱的幅度、实部和虚部(MRI)所组成的拼接谱分解为基矩阵和权重矩阵。我们提出的算法通过两种方式计算初始估计信号,一种是只考虑幅度部分,另一种是考虑实部和虚部。由于这两组初始估计结果具有潜在的互补作用,我们通过基尼系数计算它们的权重。我们采用各种客观指标对该方法的分离效率进行了测试,结果显示与以往的分离方法相比,该方法取得了较好的分离效果。在有监督语音分离问题中,基于SNMF的方法针对每一个单独说话人学习非负基矩阵,之后使用与说话人相关的基矩阵分离混合谱。然而单独说话人的基矩阵在训练时未能考虑与其他说话人的干扰关系,这会导致训练和测试条件不匹配,因此无法实现最优估计。在第三项工作中,我们提出了一种基于双域变换的SS方法,该方法在进行DTCWT和STFT的双域变换后,利用生成式联合字典学习(GJDL)方法联合学习信号的MRI信息。首先利用DTCWT将时域语音信号为分解一组子带信号,然后通过STFT将每个子带信号转换到时频域,并构造复值谱,其中包含了后续使用的子带信号的实部、虚部和幅度三部分信息。我们利用GJDL方法学习联合字典,并采用带相干性准则的批量最小角回归算法(LARC)进行稀疏编码。我们使用两种不同的方法对初始估计信号进行计算,一种是仅考虑幅度部分,另一种是考虑实部和虚部。最后,采用基尼系数(GI)来提高估计的准确度。GJDL是使基字典适应混合语句的两阶段迭代算法。在第一个阶段中,通过稀疏编码计算出混合信号在固定基字典上的投影系数矩阵;在第二个阶段中,更新基字典同时保持原子在系数矩阵中的最小角度回归的非负形式。与上述算法相比,该算法在所有考虑的评价指标中表现出了最佳的性能。