论文部分内容阅读
一般认为,高效的感知音频编码与以实时通信为目的的低延迟编码是两个不同的研究和应用领域。一方面,感知音频编码在较宽的频带范围内,能够以极低的码率提供主观音质极好的音频,但编解码延迟较大,不适合交互式的实时通信的应用;另一方面,语音编码能够满足实时通信延迟的要求,但对于非语音信号,其编码性能较差。因此,研究同时具有高质量和低延迟的音频编码技术非常必要。本文提出了一种新的低延迟高质量音频编码算LDX,主要面向交互式的实时通信。为了降低编解码算法延迟,LDX并未完全沿袭传统的感知音频编码的技术路线,而是采用了相对较短、长度固定的变换窗,从而大幅度地降低了算法延迟。同时,为了在高压缩比下获得高质量的音频,LDX对现有的心理声学模型和立体声编码算法作了改进,运用FFT和MDCT相结合的心理声学分析方法,不仅降低了算法复杂度,同时也提高了心理声学分析的精确度;LDX运用正方形极坐标映射的声道耦合算法,相对于传统的M/S立体声编码算法,具有更高的编码效率;针对变换的音频编码中预回声现象,LDX提出了一种时域拆分——频域合成的、基于组合心理声学模型的预回声处理新算法,能有效地抑制预回声,从而保证了音频质量。因此,LDX具有以下性能特性:在相同编码比特率下,音质要远好于ITU-T G.722.1c和MP3;算法延迟低,16kHz、32kHz和48kHz采样率下最小算法延迟分别为16ms、8ms和5.33ms,能够满足交互式的实时通信;支持较大范围的编码比特率和采样率;中等算法复杂度。总之,LDX算法的提出弥补了传统音频编码算法和语音编码算法的不足,它不仅具有较低的编解码算法延迟,而且在编码效率、音质和算法复杂度等方面,可以与时下的其它高级感知音频编码算法相媲美。