论文部分内容阅读
随着信息技术的发展,信道资源越来越宝贵,为了提高存储效率和减小存储空间,在允许的失真条件下,如何设计/实现高质量的低速率语音编码器是当前的热点之一。现如今,采用单一的编码技术很难满足上述要求,混合编码技术已成为语音编码的优选方向。本文研究了一种确定分量和随机分量组合的语音信号表示模型——瞬时幅度+噪声模型,它是正弦+噪声模型的一种改进型结构。正弦+噪声模型是一种谱模型结构,它利用人类对声音的感知特性,将声音的周期分量以正弦的时变幅度、频率和相位形式来表示,剩余的非周期分量(残差信号)用已滤波的噪声形式呈现。因为周期分量的不稳定性,在语音信号中,估计正弦模型的参数是一项十分困难的任务,进行正弦轨迹的匹配和相位参数的平滑也是相当繁琐的工作,同时也很难达到较高的时间和频率分辨率。因此,我们提出了一种改进型正弦模型——瞬时幅度(IA)模型。该模型主要是把正弦模型中难估计的相位参数转化为对两个瞬时幅度参数的估计,从算法的实现角度上做了简化。同时对频率参数的估计采用了一种迭代的方法,利用该方法提取出的正弦分量都是相对人耳最重要的成分,从而使得合成的语音在质量上得到了相对提高。对于剩余的非周期分量我们采用线性预测分析合成原理,建立一个全极点声道模型,然后估算并传输模型参数和激励参数。对瞬时幅度+噪声模型提取的参数分别进行编码传输,对于正弦分量的幅度参数提出了一种多项式包络拟合的方法。而对于线性预测(LP)系数,由于量化后再传输会对系统造成不稳定的现象,因此将其变换成更适合编码和传输的参数——线谱频率(LSF)参数。通过对模型参数的量化、编码和解码,我们设计了一个编码速率为10.72 kb/s的语音编解码器。同时,本文设计了一个MATLAB用户图形界面(GUI)。我们将仿真后的数据都储存在该界面中,并通过对界面上的按键操作实现相应的功能,例如播放语音,显示语音的波形图等功能。通过大量的实验数据和平均意见得分(MOS)主观测听评价得出,本文基于瞬时幅度+噪声模型设计的语音编解码器具有较好的性能,合成的语音无论在质量上还是在压缩率方面都较传统方法有了大的提高。因此瞬时幅度+噪声模型对设计低速率高音质的语音编码具有较高的研究价值。