论文部分内容阅读
多带激励(MBE)声码器在理论上支持高质量的语音合成,是目前在低码率范围内研究最普遍的一种语音模型,具有广泛的应用前景。然而MBE声码器在实际参数估计、参数量化、无线传输和语音合成过程中均很有可能会引入误差,进而影响语音质量,尤其在低码率应用和信源信道双重噪声干扰的情况下语音质量存在很大落差,相关算法有待改进。本文主要针对参数估计和语音合成过程所涉及的关键算法进行改进。由于传统双路径基音跟踪算法对约束方程的门限取固定经验值,导致基音估计的鲁棒性差。首先构造全新的差值不等式作为约束方程,以降低建立门限自适应调整模型的难度。然后通过分析标准基音周期及其倍/次基音所对应的单帧拟合误差之间的最大差值关系来研究在单帧意义上的倍/次基音干扰特性,推广得到差值门限过低会降低对倍基音干扰的抑制能力而差值门限过高则会引入更多次基音错误的因果关系。从而提出双门限和全范围两种自适应双路径基音跟踪算法,相应的差值门限分别根据先前帧基音周期长短的统计结果和前一帧的倍基音错误识别信息进行更新。实验结果显示,以上两种算法对应基音估计的严重错误概率(GER)均普遍下降,尤其对于女声,当信噪比(SNR)为-5dB时女声基音估计的GER的平均性能改善分别达到82.13%和82.19%,虽然对应基音估计的一般错误均值(ME)均普遍增加,但是幅度很小,ME的性能损失相对GER的性能改善而言非常微弱。实验结果表明,以上两种算法对不同讲话者和不同程度高斯白噪声干扰均具有较强的适应能力,尤其在严重的高斯白噪声干扰的情况下基音估计准确性的改善更加明显。子带划分不可避免会增加清浊音误判的概率,现有的常用子带划分方式只凭经验进行划分,产生的失真影响较大,因此结合子带清浊音误判所导致的失真影响与子带能量必然有关的性质,提出一种基于谱分布特性的子带划分方式,根据当前帧的谐波结构以及谐波能量分布,按照兼顾各个子带之间的带宽平衡和能量平衡的原则进行划分。另外,背景噪声会降低子带信号的浊音度,传统子带清浊音判决算法存在鲁棒性差的问题,因此提出一种基于相关增强的子带清浊音判决算法:通过对不同背景环境和SNR的带噪语音以及纯净语音的清浊音聚类采用Fisher最佳投影矢量进行映射,得到新的更具可辨识性的清音聚类和浊音聚类,从而增强特征值与清浊音之间的相关性;同时采用以先前帧子带清浊音状态、清浊音状态在时间上的相关系数矩阵作为先验概率输入信息的最大后验概率判决准则,从而引入相邻帧清浊音之间的相关性。实验结果表明,上述优化算法的判决性能从整体上得到改善,在不同背景环境下均具有较强的抗噪声能力,语音听觉质量提高。低码率MBE声码器通常采用线性预测(LP)全极点模型来逼近MBE谱幅度矢量并最终将其等效为线谱频率(LSF)参数形式。当MBE谱密度序列过于稀疏或存在频域采样偏移时不能用于准确估计自相关序列,导致LP谱与MBE谱之间的逼近误差较大,因此提出一种MBE谱密度内插修正方案,将MBE谱密度序列扩展为频域均匀分布且频率充分取样的序列,并校准LP增益以避免由MBE谱密度内插造成的不同语音帧之间总功率不同程度的波动。另外,LSF系数提取算法不能确保实际LSF系数是升序的,因此提出一种LSF系数优化方案,分别在两个方向上进行局部微调,并直接将两者平均作为LSF系数的最终结果。实验结果表明,上述改进算法能够有效降低LP谱包络估计误差并避免合成语音出现局部异常尖峰,语音听觉质量提高。低码率MBE声码器通常采用重新生成方式得到浊音谐波相位信息,现有的相位生成算法容易引起语音波形失衡,相应语音信号的峰均比偏高,从而导致信号饱和失真概率增加或系统待机时间缩短,因此提出一种基于计算机遍历搜索的最佳初始相位设计方法,在假设各次谐波分量均为浊音的情况下为各次谐波分量任意分配一个初始相位,将最小峰值信号波形所对应的一组相位作为最佳初始相位。由此所得到的最佳初始相位能够用于在极少存储资源消耗和不增加额外的复杂度的情况下抑制语音波形出现失衡,具有很强的实用性和应用价值。