论文部分内容阅读
网络技术的迅猛发展使得以分组交换为基础的IP电话技术得到了越来越广泛的应用。如何减小分组丢失对接收端合成语音质量的影响,已经成为语音编码领域亟待解决的问题。在此背景下,嵌入式变速率语音编码方法应运而生。国际电信联盟(ITU-T)于2005年提出了制定最新国际语音编码标准G.VBR的计划,使嵌入式变速率语音编码成为近两年来语音编码领域的研究热点。嵌入式变速率语音编码多采用码激励线性预测语音编码技术,这使得线性预测系数的量化成为至关重要的环节,量化的效果将会直接影响到整个编码器的性能。为此,本文就线性预测系数的矢量量化技术展开了深入研究。线性预测系数在量化之前,通常要转换成为线谱频率参数或导抗谱频率参数。在线谱频率参数矢量量化方面,本文提出了一种改进的基于哈德码变换的码书快速搜索算法,使矢量量化中码书搜索的速度相对于全搜索算法有了很大的提高。在导抗谱频率参数矢量量化方面,本文针对现有量化算法在处理语音分组丢失时效果不佳的问题,结合嵌入式变速率语音编码算法的特点,提出了三种应用于宽带导抗谱频率参数的量化方案。首先提出了一种改进的应用于宽带导抗谱频率参数量化的转换分类分裂矢量量化方案。该方案采用无记忆的量化方式,在编码比特数为42bits/frame时达到了透明量化的性能,但其唯一的缺点就是所需的码书存储量较大。针对此问题,本文又提出了一种转换分类乘积码锥形矢量量化方案。该方案在量化精度与复杂度之间进行了折衷,具有低复杂度、低存储的特点,在编码比特数为46bits/frame时达到了透明量化的性能。但是,考虑到应用于嵌入式变速率语音编码器中的导抗谱频率参数量化方案要在有丢失帧与无丢失帧时都具有尽可能好的量化效果,本文最后提出了一种各维非等系数帧间预测分裂矢量量化方案。该方案在无丢失帧的情况下用46bits/frame进行量化即可达到透明量化的性能,且在有丢失帧的情况下错误的延续性较小,实现了平衡有丢失帧与无丢失帧时量化性能的目的。最后,将本文提出的46bits/frame各维非等系数帧间预测分裂矢量量化方案应用到一种8~32kb/s嵌入式变速率语音编码器中。此编码器由本人所在的北京工业大学语音与音频信号处理实验室开发,并作为G.VBR候选编码器之一,由华为公司提交给ITU-T。实验结果表明,在纯净语音情况下该编码器基本达到了ITU-T对G.VBR候选编码器各层合成语音质量的要求。