论文部分内容阅读
在移动便携式多媒体设备广泛使用的今天,低速率、高保真的语音和音频信号压缩编码问题仍然是信息处理领域研究学者广泛讨论的课题。近三十年来,语音编码技术和音频编码技术虽然都得到了快速的发展,但由于声音信号的类型多样化,现有的语音编码或是音频编码系统都不能提供全透明音质。现代声音信号处理系统依然需要新的压缩编码技术统一处理语音和音频信号。语音和音频统一编解码(Unified of Speech and Audio Coding,USAC)技术是目前工业界和研究领域普遍讨论的课题。目前,广泛采用的MPEG-D USAC系统利用两个独立的语音和音频编解码核分别处理语音和音频信号。MPEG-D USAC首先采用语音音频识别方法对输入信号中的语音和音频信号进行分类,然后利用增强的频带复制(enhanced Spectral Band Replication,eSBR)技术压缩信号的高频分量。不同于以往的频带复制(Spectral Band Replication,SBR)技术,USAC中的eSBR模块需要同时处理语音和音频信号,利用多通道的正交镜像滤波器(Quadrature Mirror Filter,QMF)组对信号进行时—频变换,使系统的复杂度较高。本文在MPEG-D USAC系统的基础上,通过稀疏快速傅立叶变换(Sparse Fast Fourier Transform,SFFT)技术对eSBR模块进行改进,设计低复杂度的MPEG-D USAC实现方案。本文利用低复杂度的SFFT感知算法设计多通道的QMF滤波器组,实现信号的快速时—频变换。本文所采用的利用SFFT算法设计eSBR模块的方案,能够以亚线性时间提取出信号在傅立叶变换域内的部分重要分量,有效减少了信号进行离散傅立叶变换时的运算量。实验数据证明,相对于传统的eSBR技术,采用SFFT算法对信号进行时—频变换更能降低运算复杂度,其运行时间能够快上几倍。通过对改进后的USAC系统所输出的声音信号进行音质评测和波形分析,证明了本文所提方法在降低系统运算复杂度的同时,也依然能在不同编码速率下同时对语音和音频信号进行高效的编解码,达到预期的理论结果。