论文部分内容阅读
语音分离的研究在语音通信、信号增强等领域有着重要意义。语音分离作为语音信号处理的前端模块,其性能的好坏直接决定整个语音系统的性能优劣。基于人的双耳听觉机制,双耳语音分离比单声道语音分离有着更加鲁棒的特性。因此,本文探讨鲁棒的双耳语音分离问题,基于空间线索和时频分析特性,提出了多声源混合语音的双耳语音分离算法。论文提出的算法包括两个方面:基于改进DUET(Degenerate Unmixing Estimation Technique)算法的平滑分离技术、基于计算机听觉场景分析CASA(Computational Auditory Scene Analysis)的子带分离算法。(1)基于DUET算法的平滑技术。传统的DUET分离算法基于语音信号的频域稀疏性,生成不同声源语音的二值掩膜,然而,这种硬编码的方式会产生目标声源频域频点成分丢失的问题。本文提出构建概率形式的掩膜,利用两种思路实现软编码。一种是基于Gammatone滤波器组的子带平滑,利用已有的二值掩膜和子带的频谱函数,计算各个子带的比重系数,推导出每个时频点的软编码值。另一种是基于Sigmoid函数的平滑,Sigmoid函数对于分布概率密度函数呈倒钟形的信号有着优秀的拟合能力,将候选方位的匹配距离转换成分离语音的软编码形式的掩膜。本文采用PESQ(Perceptual Evaluation of Speech Quality)值作为评价指标,仿真实验表明两种平滑技术在多种环境下均能取得了鲁棒的提升。(2)基于计算机听觉场景分析CASA的子带分离算法。混合语音经过子带滤波和分帧加窗,得到时频单元,即T-F(Time-Frequence)单元。双耳语音分离问题演变成T-F单元的归属问题。本文提出两种算法得到T-F单元的掩膜矩阵。其一为基于核密度估计KDE(Kernel Density Estimation)的生成模型。训练阶段,利用核密度估计函数计算得到不同方位角各个子带的特征分布的概率密度函数库,测试阶段,通过比较混合语音的T-F单元的特征矢量在不同角度的概率密度大小,确定T-F单元的归属;其二为基于支持向量机SVM(Support Vector Machine)的判别模型。这里将双耳语音分离问题看成多分类问题,在特征空间,训练一个SVM多分类器,从而计算混合语音的T-F单元对应的特征矢量的归属。两种算法采用的双耳特征均为耳间时间差ITD(Interaural Time Difference)和耳间强度差 IID(Interaural Intensity Difference)。本文采用 HIT-FA(HIT rate minus False-Alarm rate)和 SDR(Source to Distortion Ratio)、SAR(Sources to Artifacts Ratio)、SIR(Source toInterferencesRatio)为评价指标,实验结果显示,两种基于子带的分离算法与实验室已有的算法相比,均有显著提高。