论文部分内容阅读
近年来,随着无线通信产业的发展,用户需求快速增长,导致可供使用的频谱资源越来越少,提高频谱利用率成为解决频谱资源短缺的重要手段。语音通信是无线通信的基本业务应用,低速率、高质量一直是其追求的目标。多带激励(Multi-Band Excitation, MBE)模型是语音编码算法中低速高质的一种典型代表。该模型采用了参数编码,相对于波形编码降低了编码速率;同时,此模型将频段进行了更细小的划分,提高了清/浊音判决的精确度,从而提高了语音的质量。本文工作包括语音通信中多模多带线性预测语音编码算法的研究以及矢量量化方法的改进,主要创新性成果如下:1.提出了一种多模多带激励线性预测(Multimode MBE with Linear Predibtive Coding, MMBE-LPC)语音编解码器模型。这种编解码器与现有的MBE编解码器相比在两个方面有所改进。一、解决了频谱幅度变维量化的难题。结合线性预测的方法,将维数变化的频谱幅度转换为维数固定的线性预测系数;并将线性预.测系数用线谱频率(Line Spectral Frequency, LSF)参数表示并进一步量化,保证了量化的精确度。二、提出了一种子带划分方法和清/浊音判决阈值。先确定每帧中子带的个数,再对各子带进行清/浊音判决,进而对判决结果进行模式划分。由于在不同的清/浊音判决模式下,LSF参数的统计特性不同,因此采用不同的码书对LSF参数矢量进行量化,提高了量化的质量。另外,该模型采用了一种与能量相关的、自适应的清/浊音判决阈值,比MBE的阈值设计更加简化。仿真结果显示,时域合成语音的清音区和浊音区划分清晰,且与原始语音一致,语谱图也拟合得很好。2.提出了一种量化LSF矢量参数的滑动平均多级分裂矢量量化方法(Moving Average Multi-Stage Split Vector Quantization, MA-MS-SVQ)。采用该方法生成码书,更充分地利用了线谱频率参数帧内和帧间的相关性,减小了码书的存储空间,降低了码书的搜索复杂度。这种矢量量化器将线谱频率参数去除平均值后进行一阶滑动平均预测,将残差进行三级矢量量化。在第二级量化时,将高维线谱频率参数矢量分裂成两个低维的部分,分别用不同的码书进行量化。仿真结果表明,在低速率编码下,合成语音的平均谱失真达到0.91dB,2dB~4dB的谱泄露为0.13%,无4dB以上谱泄露。码书的存储空间和搜索复杂度均降低了31%以上。3.提出了一种贪婪树初始码书间距最大化算法(Most Dispersed Greedy TreeGrowing Algorithm, MD-GTGA),用来设计Linde-Buzo-Gray (LBG)算法初始码书,解决了LBG算法容易陷入局部最优的问题。MD-GTGA首先采用贪婪树生长算法(Greedy Tree Growing Algorithm, GTGA)生成基础码书,然后再采用码书间距最大化算法(Most Dispersed Codewords in Initialization, MDCI)从基础码书中生成初始码书。在仿真中对随机法、分裂法、GTGA和MDCI算法进行了比较,结果表明,采用GTGA生成LBG算法初始码书,合成语音的平均谱失真最小。与GTGA和MDCI算法相比,MD-GTGA降低了量化的平均失真度与平均谱失真。4.提出了一种改进的成对最近邻(Improved Pariwise Nearest Neighbors, IPNN)算法,用来生成LBG算法初始码书。该算法首先采用随机法或者分裂法选定预备码书,然后采用PNN的合并方法,以最相邻原则将训练矢量依次合并到预备码书的码字中。仿真结果显示,与PNN (Pariwise Nearest Neighbors, PNN)算法相比,IPNN算法生成LBG初始码书的训练时间短;与随机法相比,用分裂法生成的预备码书性能更稳定。仿真测试结果表明,用该算法生成LBG初始码书,合成语音的平均谱失真在1dB左右,2dB-4dB的谱泄露小于2%,无4dB及以上的谱泄露。