论文部分内容阅读
近年来,随着信号处理技术的发展,语音通信系统和语音识别系统在理想条件下取得了良好的效果。然而,在面向宽带资源有限条件下的低码率语音通信、强噪声干扰条件下的语音识别等复杂应用场景,现有系统的性能会大大降低。低码率语音编码会由于量化误差导致语音可懂度的下降,并会随着码率的降低进一步恶化,这对高可懂度的低码率语音编解码提出了更高的要求。实际应用系统中的环境噪声干扰会使得通话质量和识别率大大降低,这对语音增强(或降噪)技术也提出了越来越高的要求。本文对复杂场景下低码率语音编解码和语音增强两大问题展开研究。针对极低码率语音编码问题,分析了语音信号不同感知层的表示方法及对应的编码方法,研究了只需要单一量化编码参数的参数层低码率语音编码方法,并以此为基础实现了语义层高可懂度编解码方法,具体研究内容如下:实现了采用梅尔倒谱系数的低码率语音编解码方法。该方法只需要一种参数表示语音信号,使得实现极低码率量化编码时不需要考虑参数间联合矢量量化的问题,从而极大地简化了量化器的设计。为了实现基于梅尔倒谱系数的高质量语音信号重建,在解码端实现了采用混合高斯模型的清浊分类和基音周期估计,并使用此信息实现了一种改进型幅度谱迭代逼近的方法重建时域信号。该重建方法充分利用了语音信号本身的特点,信号初始化为最小相位信号或者合成相位信号,从而实现了高质量语音的重建并加速了迭代算法的收敛速度。在基于梅尔倒谱系数编码方法的基础上,实现了一种采用深度神经网络的语义层低码率编解码方法,并对其中的基于语音参数重构信号和高维度数据量化两大关键技术问题展开研究。研究了受限波尔兹曼机结构的深度神经网络用于语音信号语义层的特征提取,实现了信号功率谱的语义层重构;研究了深度自动编码器用于高维度数据量化,实现了一种融合传统量化编码器和神经网络解码器的矢量量化方法。基于深度神经网络进行信号重构和高维度矢量量化,实现了语义层高可懂度的极低码率语音编解码器。针对复杂环境下的语音降噪问题,本文研究了单/多通道语音增强算法,实现了融合特定人信息的单通道语音增强方法,并实现了不依赖波达方向估计的噪声鲁棒性多通道空间滤波方法,具体内容如下:实现了一种融合特定人信息的单通道语音增强算法。该算法分别对噪声估计、噪声分类、噪声鲁棒的说话人识别、特定人信息的提取及融合进行了研究,实现了基于自适应混合高斯模型的噪声估计方法、采用参数域特征的噪声分类方法、针对典型的噪声环境分别建立对应说话人模型的话者识别方法、以及从说话人模型提取信息融合到语音增强算法的方法,从而减少了对噪声估计算法的依赖,有效提升了增强后语音信号的质量。研究了噪声鲁棒性阵列信号空间滤波算法,包括不依赖于波达方向估计的改进型最小方差无失真响应波束形成算法和基于广义特征值分解的盲波束形成算法,并分析得出噪声鲁棒性波束形成算法的关键是信号和噪声的时频掩膜估计。针对现有时频掩膜估计算法的种种不足,实现了一种功率谱域实高斯模型的时频掩膜估计算法,该算法较传统复高斯模型的时频掩膜估计方法大大降低了计算复杂度;实现了一种基于深度神经网络时频掩膜估计算法,该方法采用多目标训法并融合了阵列空间信息,较同类方法大大提高了时频掩膜的精度。综上所述,本文对复杂环境下的极低码率语音编码器和语音增强关键技术问题进行了深入研究和分析,研究了基于梅尔倒谱系数的语音编码方法并实现了语义层编解码器、研究了融合特定人信息的语音增强算法并实现了噪声鲁棒性空间降噪方法。本文为极低码率语音编码器和语音增强技术的应用提供了理论依据和实践参考。