论文部分内容阅读
数字音频讯号因其高质量与便利性被广泛应用于日常生活中。随着互联网与智能手机的普及,数字语音信号广泛应用于即时语音通话,语音留言,语音翻译,听书,语音遥控等应用中。为减轻其传输和存储带来的带宽和磁盘空间压力,语音压缩是一种有效可行的手段。自九十年代起,随着计算机计算能力的提升,众多低码率的音频编码算法被提出,但这些算法多为通用算法,未单独针对语音特性进行压缩。因此,本文提出一个完整的语音编解码器,针对各时刻只存在单一人声的语音信号进行压缩,力求在保持语音质量的前提下将码率压缩至最低。本论文研究并对比了国内外现有音频算法研究。首先,本文首次提出了使用基频、共振峰包络、相位和彩噪声四个通道的信号进行语音压缩的方法;其次,本文提出并使用了基于希尔伯特变换的快速频移匹配在线字典学习方法,对共振峰包络、相位和彩噪声通道,进行压缩,使较小容量的字典即可对带有轻微频移的未知频谱进行非线性拟合,同时令拟合效果更加自然。再次,本文提出了多趟扫描字典增量训练方法,以短时延迟为代价,优化了字典中的原子的选择,并在保持拟合质量不变的前提下,进一步减少字典容量,从而降低了比特率。字典还采用了最少最近使用(LRU)方法进行换入换出,确保了字典既小而精,增加了匹配速度和字典中原子的有效性。另外,在参数定点化表示过程中,本文对听觉较灵敏的频段进行较高精度的定点化,对其它频段进行较低精度的定点化。对参数进行差分并使用非均匀编码间隔,以便在能提供较大数值表示范围的同时,尽量保留微小的变化细节。本文提出一种自适应的动态霍夫曼编码方法,用于将定点化后的参数进行进一步压缩。该方法通过动态调整树结构以适应变化的数值出现概率,不仅避免显式传输概率表,降低了码率,还能适用于流式音频,获得更好的动态压缩效果。实验结果表明,在保持较高的24kHz解码采样率的前提下,本文提出的语音编码器能将平均语音码率压缩至1kbit/s以内。该方法不但适用于一般语音传输,而且在水下,卫星通讯,抢险救灾等带宽受限或带宽昂贵的应用场景,因其码率极低,优势也比较显著。与一般算法不同,该算法在极低码率下,仍尽力保留语音信号高频部分的特征信息,因此保持了较佳的听觉效果。