论文部分内容阅读
引言近几十年来语音编码技术发展非常迅速。目前2.4kb/s以上的编码速率其合成语音质量已得到人们的认可,并已得到广泛地应用。现在国内外研究的重点是突破2.4kb/s以下极低速率的语音编码技术和算法。由于LPC和CELP模型本身的局限性,它们在低速语音编码中难有更好的表现。因此,人们不断探索更有潜力的新算法。多带激励MBE(Multi-Band Excitation)低速语音编码算法正是在上述两种算法的基础上,克服了它们的缺点而提出的。多带激励语音编码技术 多带激励语音编码算法的基本思想是按基音的各谐波频率,将一帧语音的频谱分成若干个谐波带,再以若干个谐波带为一组进行分带处理,然后分别对各带进行清浊音判决。对于浊音带,用以基音周期为周期的脉冲序列谱作为激励信号频谱;对于清音带,则使用白噪声谱作为激励信号频谱,根据不同的激励信号产生合成语音,最后将各带信号相加形成全带语音。 二、语音分析在MBE核心算法的基础上,本论文对其进行了改进。首先,对输入语音进行分析,建立合理的语音模型并准确地估计模型参数。在语音模型中,合成语音所需要的参数包括:基音频率、谱包络信息和各带的清浊音信息。对语音信号进行预处理之后,首先做LPC分析来提取谱幅度系数。采用了时域中的共轭梯度算法进行参数估计,它可以精确快速地估计出每帧语音模型的参数,得到和做为表示语音信号的谱包络信息。针对自相关函数、平均幅度差函数等典型的基音检测算法存在着复杂度较高,检测不够准确等缺陷,本论文研究的小波变换模极大值基音检测法是一种有效的改进方案,对于输入的加窗语音序列采用Mallat快速算法进行离散二进小波变换,对信号做5阶小波分解,并检测每个尺度下模极大值的位置,相<WP=76>邻最大值之间的间隔即为语音周期。该算法有效的降低基音检测的复杂度,并能避开噪声的干扰,更准确的提取语音基音频率。清浊音判决的正确性在很大程度上影响合成语音质量。通过分带信号在频域上的波形不同来判定U/V信息。先对低通余量信号进行离散傅立叶变换,把它转换至频域。为了降低编解码器对语音基音的依赖性,将语音频谱划分为固定的9个子带,在每一子带上计算其自相关函数,根据信号频域波形有无明显的谱线结构来区分清音子带和浊音子带,获得清浊音信息。三、参数编码对于8kHz的采样率,以25ms为一帧,每帧200个样点,在一帧语音中,使用45比特分配技术,则传输速率约为2.0kb/s。采用6比特非均匀标量量化的方法对基音周期进行量化,对低频段分配较多码率以进行细致分析;根据语音分析时固定的分带数来确定采用9比特传递U/V信息;对于能量系数,将其开平方后转化到对数域进行线性量化,把其结果线性映射到[0,31]的范围中,取这个范围内与映射结果最接近的整数作为量化结果,并分配5比特进行标量量化。LPC系数的编码是参数编码的重点,由于其动态范围大,需要的计算量和存储量较多,需要转化为相应的等价形式LSF参数以保证合成滤波器的稳定性,采用了分裂矢量量化的方法。将一个10维的LSF特征矢量分裂成3个维数分别为3、3、4的低维矢量,然后对三个低维矢量分别进行矢量量化。采用LBG算法来得到所需要的三个码本,并通过全搜索方法从码本中搜索最佳码矢量来量化LSF参数。四、语音合成在语音合成端按清浊音分别对应的不同激励源构造激励信号,综合考虑时域和频域合成的优缺点,用频域合成法完成对清音带语音激励的重建。这种重建比较容易在频域中实现带通滤波器;采用时域合成法完成对浊音带语音激励的合成,以保证帧间语音的平滑过渡,叠加为全带激励信号后,将其作为合成语音的残差信号,经LPC综合逆滤波器得到最终合成语音。这样就产生了LPC-MBE 语音编码方案。这种编码方案不需要进行谱幅度重建,直接由LPC<WP=77>系数作为合成滤波器的参数分量,对残差信号做整体拟合更为简单方便。五、语音增强为了在噪声背景中提高LPC-MBE 语音编码器的性能,引入语音增强算法作为语音编码器的预处理器。采用双通道卡尔曼滤波的语音增强技术,信号与噪声模型的参数由共轭梯度算法进行估计,为在噪声环境下,尽可能提供纯净的语音作为语音编码器的输入提供了一种选择可能性。六、仿真结论在8kHz的采样频率下分别输入一段男声和一段女声,在计算机上采用MATLAB语言模拟仿真该语音编码算法。仿真结果表明,合成语音的波形同原始语音波形基本保持一致,从语谱图中可以看出语音能量的损失很小,主观测听效果较为理想,并基本上能满足实时通话需要。