论文部分内容阅读
语音通信对实时性和连续性都有较高要求,但现在的网络(IPv4)只提供一种尽力而为(Best-effort)的服务,网络拥塞的发生会导致丢包和延时,从而使得话音质量严重下降,因此为了确保服务质量(Quality of Service,QoS),需要采取应对策略来降低丢包和延时对语音质量造成的不良影响。基于接收端的语音丢包恢复策略已经成为一个决定通信话音质量的重要因素。本文主要研究基于接收端的语音丢包恢复技术,改进和设计了一系列的算法实现对码激励线性预测编码(Code Excited Linear Predictive Coding,简称CELP)框架的语音丢失帧的恢复来改善话音质量。首先研究了应用广泛的CELP框架编码器和G.723.1语音编码,设计了一个丢包模型来较好的模拟网络丢包状况,从而能够在此模型上实现丢包恢复算法。然后先探讨了在时域波形上的语音丢包恢复算法,以及在CELP的参数域上的基于参数复制和交叠插值方法的丢包恢复算法,在此基础上改进和设计了基于声音驱动的丢包补偿算法,其相比较之前的恢复算法对清浊音判断和转接段估计,语音信号幅值的趋势变化几个方面进行了更精确处理,并使用信噪比评价实验结果验证了其更好的恢复效果。之前的丢包恢复算法都忽视了语音信号的统计学变化规律会导致恢复信号在听觉感官上的不自然。针对这一问题,我们引入了统计学方法,不再把丢失帧参数看成是一个确定值而是一个混合高斯分布GMM(Gaussian Mixture Model),并利用HMM(Hidden Markov Model)来描述语音信号的随机变化过程,从概率上来估计丢失语音参数,在理论上对于丢失帧的恢复能得到更好的听觉效果。最后使用巴克谱失真这种接近感官听觉标准的语音质量的客观评价方法来对我们的算法进行评价。实验结果表明,引入基于HMM模型的丢包恢复算法相比之前的恢复算法具有更好的恢复效果。