论文部分内容阅读
随着移动通信技术的发展,用户数量的增多,无线通信中的频带资源变得越来越宝贵。降低语音的编码速率可以提高频带资源的利用率,因此高质量、低速率的语音编码技术被广泛应用于各种无线通信系统。混合激励线性预测(Mixed Excitation Linear Prediction,MELP)编码在线性预测模型的基础上采用了混合激励等五大机制来提高合成语音的质量,能在低于2.4kbps的速率上重建出较高质量的合成语音,可应用于卫星通信、军事通信和水下通信等频带资源极其宝贵的领域。因此基于MELP编码模型的甚低速率声码器是语音编码领域的一个重点研究方向。作为一种高质量的数据压缩算法,矢量量化在甚低速率语音编码领域起着非常重要的作用。本文通过对矢量量化算法进行研究,在预测分裂矢量量化算法中引入分类矢量量化,提出了一种基于高斯混合模型的预测分类分裂矢量量化(GMM-based Predictive Switched Split Vector Quantization,GMM-PSSVQ)算法。用GMM-PSSVQ算法对2.4kbps MELP声码器中的线谱频率(Line Spectrum Frequency,LSF)参数进行量化,并与多级矢量量化算法和预测分裂矢量量化算法进行对比,实验结果表明使用GMM-PSSVQ算法的声码器合成的语音的平均谱失真最小,客观感知语音质量评估(Perceptual Evaluation of Speech Quality,PESQ)值最高,证明该算法能有效地降低LSF参数的量化失真,进而提高合成语音的质量。本文在深入研究标准MELP声码器算法原理的基础上,通过采用多帧联合量化和线性插值等技术降低编码速率,设计出了一种基于MELP的甚低速率声码器,编码速率为600bps。该声码器以20ms为一子帧,5个子帧组成一个超帧,根据子帧的清/浊音判决结果,将超帧划分为16种模式,对每种模式下的语音特征参数用60bit进行联合量化。在语音特征参数比特分配方案中,编码端采用GMM-PSSVQ算法只对一个超帧中2~3个子帧的LSF参数进行量化;解码端解码出这几帧的LSF参数后,利用相邻子帧之间的相关性,采用拉格朗日插值法计算出该超帧其它子帧的LSF参数。通过PESQ和判断韵字测试(Diagnostic Rhymer Test,DRT)对本文设计的声码器进行了性能测试,结果表明本文设计的600bps MELP声码器合成的语音具有较高的清晰度和可懂度。