基于正弦+噪声模型的宽带音频信号的表示与压缩

论文部分内容阅读

通信技术的发展使得实时多媒体通信称为可能,数字信号处理(Digital Signal Processing)技术在软、硬件方面的发展提供了更多更丰富的多媒体应用。数字音频信号的模型表示与压缩编码一直是学界和业界研究的热点课题。低码率、高音质、适合实时应用的宽带音频压缩算法的前景最被看好。本文从表示音频信号的模型出发,跟踪先进的研究成果,实现了一种通过确定分量(Deterministic Part)和随机分量(Stochastic Part)两部分表示宽带音频信号的模型——正弦+噪声模型(Sinusoid+Noise Model),提出了对模型的改进算法,研究了感知音频编码( Perceptual Audio Coding ) 的核心技术——心理声学模型(Psychoacoustic Model),并基于上述理论基础提出了一种低码率宽带音频压缩编码方案。在音频信号表示模型方面,本文研究了已经被广泛用于语音信号压缩的正弦模型和正弦+噪声模型。实现并比较了正弦参数提取的快速算法和迭代算法,即分析合成法和合成分析法。针对宽带音频信号的特点,本文提出了两种多分辨率分析算法作为传统正弦模型的改进。两种算法效果相近,分别用于极低码率和低码率两种情况。本文在研究感知音频编码理论的基础上实现了MPEG(Moving Pictures Experts Group)标准中音频压缩编码部分的心理声学模型,并将心理声学模型整合到正弦模型的参数提取和参数量化模块中,实现了感知音频编码。为了进一步降低码率,提出了减少信号帧间冗余信息的轨迹编码方法,同时引入了解码端频域无相位综合算法。在MatlabTM平台上实现了整个编解码器(Codec)的仿真,并与当今先进的音频压缩算法进行了比较。总体上实现了0.5 比特每抽样的高压缩率和6-16kbps 的可变码率。对单声道32kHz 抽样、16 比特量化的线性PCM 音频信号进行压缩编码实验,主观听觉测试表明:本文提出的算法可以提供从可以接受到近似感觉无失真(透明, Transparent)的重建音质。横向比较证明与当今先进的音频压缩编码算法相比(比如RealAudio),对绝大多数类型的音频信号,本算法在相同码率下可以提供有竞争力甚至更好的重建音质,在相同码率下可以提供更高的重建信号带宽,或者在

与本文相关的学术论文