论文部分内容阅读
语音编码技术在高速率和中速率上已经能够产生质量非常高的重构语音,但是低位率乃至极低位率的高质量语音编码仍然是一个具有前沿理论意义和潜在实际应用价值的挑战性研究课题,促使许多研究人员探索新的技术手段和方法,如新的正弦建模技术,新的参数量化方法等等,以期实现低位率高质量语音编码。本文正是沿着正弦建模正弦分析的方向,采用匹配跟踪技术,结合心理声学模型,研究了新的建模方法以及模型参数的量化编码,对低位率语音编码及相关问题进行了有益的探索,并取得了如下创新性研究成果: 1.运用匹配跟踪技术处理了语音信号增强问题,给出了匹配跟踪信号增强过程中相干比阈值的确定方法,实现了在未知信号与噪声统计特性的情况下,在相当大的范围内明显增强信号的目的。 2.研究了基于匹配跟踪的正弦建模问题,提出了动态掩蔽阈值、感知梯度等概念,以及感知梯度正弦建模算法。感知梯度正弦建模比较好地利用了心理声学模型,在建模过程中最大限度地增加合成信号的感知信息,提高了建模效率。即使在模型精度不高的情况下,该方法也能得到合成质量比较好的语音。 3.针对正弦模型参数的量化编码,提出了幅度参数矢量量化、频率参数差分量化等方法,并探讨了频率盒量化模型以及随机相位和零相位模型等。这些方法有效地降低了编码位率。 4.围绕编码位率的降低和语音质量的提高,以逐步求精层层递进的方式研究了一系列压缩编码方案,并最终提出一个位率在1.5~2.4kbps的综合编码方案。针对各种不同建模方法和参数量化技术,本文探讨了基于普通匹配跟踪正弦建模的压缩编码、感知梯度正弦建模压缩编码、基于动态字典匹配跟踪的压缩编码、分类动态字典压缩编码,以及结合感知梯度正弦建模和分类动态字典的综合编码方案。结果发现匹配跟踪正弦建模在低位率语音编码上具有很大潜力,为低位率高质量语音编码探索了一条新的技术路线。最后提出的综合编码方案比较多地考虑了心理声学因素,融合了分类处理、动态字典和感知梯度建模思想,在编码位率和合成语音质量上都比现有的一些国际编码方法和标准要好。 5.提出了CAMDF函数,以及基于CAMDF的语音分类与基音估计算法,并在本文的压缩编码方案中得以运用。由于CAMDF克服了传统AMDF函数的不足,新的基音检测算法不仅有效地降低了误判率,而且简化了基音检测过程,提高了估计值的精度。利用CAMDF的语音分类也取得了比较满意的结果。 最后,总结全文,分析了目前研究工作中有待进一步完善的地方,指出了下一阶段的研究方向以及对本领域的一些展望。