论文部分内容阅读
房间混响会降低语音质量和语音可懂度。随着免提电话、声控系统、音频会议系统等语音通信系统的普及,对语音质量及可懂度的要求越来越高。再者,混响会对语音通信系统中语音识别、声源定位等应用的精度造成严重的影响。对房间脉冲响应(Room Impulse Response,RIR)进行盲逆滤波是一种常见的比较有效的语音去混响方法。混响语音可以假设为对独立同分布的纯净语音进行延迟相加而得到,根据中心极限定理,混响语音的概率密度函数可以近似为高斯分布。高阶统计量是衡量非高斯性的重要参量,考虑纯净语音的非高斯特性,基于语音非高斯特性可实现语音去混响。 基于非高斯性极大准则,本文研究基于偏度的多通道房间脉冲响应逆滤波语音去混响方法,主要研究内容和创新点如下: (1)提出一种基于高阶统计量的多通道语音去混响方法,该方法首次用多通道语音信号线性预测残差的三阶统计量偏度(Skewness)构造代价函数,以去混响重建信号线性预测残差的偏度最大化为目标自适应地更新逆滤波器(Maximum Linear Prediction Residual Skewness-based Inverse Filtering for Multichannel Speech Dereverberation,MLPRS-IF-MSD)。仿真实验结果表明,该算法相比于已有的基于高阶统计量的算法具有更理想的去混响性能,尤其在混响较强的情况下;该算法对加性高斯白噪声的鲁棒性更强;该算法的计算复杂度更低。 (2)提出一种基于偏度的房间脉冲响应逆滤波器与预测误差滤波器联合估计的多通道去混响算法(Maximum-Skewness Joint Estimation based-Inverse Filtering for Multichannel Speech Dereverberation,MSJE-IF-MSD),解决混响所引起的MLPRS-IF-MSD方法中线性预测系数估计不准确的问题,有效提高了逆滤波的精度。仿真和实测数据实验结果表明,MSJE-IF-MSD相较于MLPRS-IF-MSD算法的去混响性能有一定提升,且对噪声更具鲁棒性。 (3)研究通过估计晚期混响成分的短时功率谱密度,利用谱减法实现对逆滤波后的重构语音信号进行残余晚期混响抑制。仿真实验结果表明,该算法能够有效地抑制残余晚期混响,从而进一步提高语音质量。