论文部分内容阅读
ITU提出了延迟低于5ms,码率低于8Kbps,长话音质的LD-CELP编码算法新指标,针对以上目标我们开展研究。主要研究目标为:设计并提出延迟2.5毫秒码率8Kbps长话音质的语音编码算法。为实现上述目标,论文在以下几个方面开展研究并取得创新性的进展。第一,在G728的结构基础上帧长由5样点增加到20样点,在低延迟语音编码算法中引入自适应码书,自适应码书由最近历史激励构成,对自适应码书、固定码书两个码书进行搜索,且为保证音质和降低计算复杂性,采用和当前算法不同的新结构。设计提出了三种延迟2.5ms码率为8Kbps低延迟语音编码算法:算法1:该算法固定码书、自适应码书均为10bit(增益矢量3bit,波形码字7bit),对码书进行全搜索。算法2:该算法实行隔帧搜索,对自适应码书搜索仅在偶数帧进行,奇数帧直接使用偶数帧的搜索结果,节省下来的比特数用于固定码书尺寸的扩大。算法3:该算法的自适应码书搜索方案中结合了后向基音的检测。在码书搜索中,先利用后向基音检测算法确定基音周期T,初步定位最佳的自适应码字,然后以基音周期T为基准在一定范围内进行码书搜索的修正。实验表明,三种延迟2.5毫秒的8Kbps的语音编码算法编码质量都接近了G.728。算法在编码速率、延迟和编码质量方面取得了理想的平衡。本研究的第二个创新性贡献是根据8Kbps低延迟编码算法码书尺寸和码字维数的特点,改进自组织特征映射(SOFM)神经网络,并用于固定码书训练。LBG算法是矢量量化的传统经典算法,但在训练过程中,由于存在少量的离群矢量影响了码书训练时码字的分布,使得压缩性能下降。为了改善码书性能和降低计算量,本研究对SOFM算法的初始码书的生成、获胜神经元搜索策略以及调整获胜码字及其拓扑邻域权值等方面进行改进,最后应用于低延迟语音编码算法中,实验表明,改进算法其码书的性能得到了很大提高。第三,对低延迟语音编码算法中的增益滤波器进行分析,针对20维矢量,研究评价了加权L-S滤波器、有限记忆滤波器以及BP神经网络滤波器多个不同的预测器方案。采用了独立于增益量化器量化信噪比的增益滤波器性能评价方法,在增益量化之前对增益预测器的各种优化方案进行直接比较和评价,实验发现,三种增益滤波器代替L-D方法进行语音编码测试,效果均好于L-D方法。其中加权L-S滤波器性能最高。本文最后最重要的创新工作是提出一种混合LPC系数,它同时结合了声学和听觉两个特性。现有的语音编码算法大多使用单纯基于声道模型的LPC系数,没有充分反映人耳的听觉特性,编码后采用PESQ值进行评价,阻碍了语音编码质量的进一步提高。我们充分考虑人的心理听觉感受,把听觉特性首次直接加入到低延迟语音编码算法中。根据MFCC系数的特点调节LPCMCC系数,使其能更真实准确地反映声音的听觉特性,并最终把这种听觉特性反映在LPC系数上,新系数不仅具有声学特性而且反映听觉特点。实验结果表明在LPC系数中加入听觉特性后,使得编码后的合成语音听觉质量有了改善,提高了PESQ值,对编码算法的研究有积极意义。