多带激励声码器关键算法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:woshishouhushen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多带激励(MBE)声码器在理论上支持高质量的语音合成,是目前在低码率范围内研究最普遍的一种语音模型,具有广泛的应用前景。然而MBE声码器在实际参数估计、参数量化、无线传输和语音合成过程中均很有可能会引入误差,进而影响语音质量,尤其在低码率应用和信源信道双重噪声干扰的情况下语音质量存在很大落差,相关算法有待改进。本文主要针对参数估计和语音合成过程所涉及的关键算法进行改进。由于传统双路径基音跟踪算法对约束方程的门限取固定经验值,导致基音估计的鲁棒性差。首先构造全新的差值不等式作为约束方程,以降低建立门限自适应调整模型的难度。然后通过分析标准基音周期及其倍/次基音所对应的单帧拟合误差之间的最大差值关系来研究在单帧意义上的倍/次基音干扰特性,推广得到差值门限过低会降低对倍基音干扰的抑制能力而差值门限过高则会引入更多次基音错误的因果关系。从而提出双门限和全范围两种自适应双路径基音跟踪算法,相应的差值门限分别根据先前帧基音周期长短的统计结果和前一帧的倍基音错误识别信息进行更新。实验结果显示,以上两种算法对应基音估计的严重错误概率(GER)均普遍下降,尤其对于女声,当信噪比(SNR)为-5dB时女声基音估计的GER的平均性能改善分别达到82.13%和82.19%,虽然对应基音估计的一般错误均值(ME)均普遍增加,但是幅度很小,ME的性能损失相对GER的性能改善而言非常微弱。实验结果表明,以上两种算法对不同讲话者和不同程度高斯白噪声干扰均具有较强的适应能力,尤其在严重的高斯白噪声干扰的情况下基音估计准确性的改善更加明显。子带划分不可避免会增加清浊音误判的概率,现有的常用子带划分方式只凭经验进行划分,产生的失真影响较大,因此结合子带清浊音误判所导致的失真影响与子带能量必然有关的性质,提出一种基于谱分布特性的子带划分方式,根据当前帧的谐波结构以及谐波能量分布,按照兼顾各个子带之间的带宽平衡和能量平衡的原则进行划分。另外,背景噪声会降低子带信号的浊音度,传统子带清浊音判决算法存在鲁棒性差的问题,因此提出一种基于相关增强的子带清浊音判决算法:通过对不同背景环境和SNR的带噪语音以及纯净语音的清浊音聚类采用Fisher最佳投影矢量进行映射,得到新的更具可辨识性的清音聚类和浊音聚类,从而增强特征值与清浊音之间的相关性;同时采用以先前帧子带清浊音状态、清浊音状态在时间上的相关系数矩阵作为先验概率输入信息的最大后验概率判决准则,从而引入相邻帧清浊音之间的相关性。实验结果表明,上述优化算法的判决性能从整体上得到改善,在不同背景环境下均具有较强的抗噪声能力,语音听觉质量提高。低码率MBE声码器通常采用线性预测(LP)全极点模型来逼近MBE谱幅度矢量并最终将其等效为线谱频率(LSF)参数形式。当MBE谱密度序列过于稀疏或存在频域采样偏移时不能用于准确估计自相关序列,导致LP谱与MBE谱之间的逼近误差较大,因此提出一种MBE谱密度内插修正方案,将MBE谱密度序列扩展为频域均匀分布且频率充分取样的序列,并校准LP增益以避免由MBE谱密度内插造成的不同语音帧之间总功率不同程度的波动。另外,LSF系数提取算法不能确保实际LSF系数是升序的,因此提出一种LSF系数优化方案,分别在两个方向上进行局部微调,并直接将两者平均作为LSF系数的最终结果。实验结果表明,上述改进算法能够有效降低LP谱包络估计误差并避免合成语音出现局部异常尖峰,语音听觉质量提高。低码率MBE声码器通常采用重新生成方式得到浊音谐波相位信息,现有的相位生成算法容易引起语音波形失衡,相应语音信号的峰均比偏高,从而导致信号饱和失真概率增加或系统待机时间缩短,因此提出一种基于计算机遍历搜索的最佳初始相位设计方法,在假设各次谐波分量均为浊音的情况下为各次谐波分量任意分配一个初始相位,将最小峰值信号波形所对应的一组相位作为最佳初始相位。由此所得到的最佳初始相位能够用于在极少存储资源消耗和不增加额外的复杂度的情况下抑制语音波形出现失衡,具有很强的实用性和应用价值。
其他文献
目的:分析不合格临床血液检验标本产生的原因及其对策。方法选取2013年8月~2014年8月在我院行血液标本常规检验的670例患者为研究对象,随机均分为对照组和研究组,各335例。对照组
为提高航空类发动机叶片的自动化磨抛精度,减小复杂曲面叶片加工轨迹控制误差,采用基于六维力传感器的机器人力/位混合控制策略,实现机器人磨抛轨迹的在线修正。搭建以Staubl
<正>就业稳则民生稳,民生稳则社会稳,就业既事关老百姓的获得感、幸福感、安全感,又事关经济发展与社会和谐。6年前,中国GDP每增长一个百分点,能够带动的城镇新增就业人数为1
建设雄安新区是国家发展过程中的重要决策,既是京津冀一体化战略的升级,又是改革开放攻坚阶段新的试验区。而在经济发展中,金融服务又是不可或缺的一个环节,为促进新区经济快
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,合成孔径雷达(SAR)系统已能实现实时成像。将来,无人机载大面积监视系统以大覆盖率采集高分辨率SAR图像,需要通过带宽有限的卫星通信链路将图像传输至地面站或指控中
本文从磁致电阻效应基本原理出发,讨论了在高密度磁记录条件下MR磁头的技术特性。就磁屏蔽、偏置、线性范围、磁道响应失衡、热噪声、磁稳定性和MR头的制造等方面说明MR磁头的基本技
随着教学的不断改革,当前在高中英语教学中对学生主体地位更加重视,因此教师在教学过程中也应该重视学生与教师之间的互动,基于此,本文在分析高中英语教学的基础上,提出几点
报告对全球69个国家的1000多家相关企业进行调研。报告显示,绿色建筑在发达国家和发展中国家继续影响建筑行业,而且将在大多数国家,特别是发展中国家获得巨大增长。