论文部分内容阅读
语音信号的表示和谱失真测度一直是贯穿于语音处理各个领域中的重要而基本的问题。虽历经几十年的研究和实践,产生了许多卓有成效的理论和方法,但随着对语音信号认识的进一步加深和近年来许多语音应用领域的蓬勃发展,对这一传统课题的研究再度活跃起来。语音质量客观评价更是语音表示及其谱失真测度理论的直接应用。本文重点研究语音信号的各种参数表示方法及其相应的失真测度,以及它们在语音质量客观评价方面的应用。1.提出了一种Bark尺度倒谱系数(BSCC)失真测度。它是采用一种余弦镶边 临界带滤波器组代替Mel频率三角滤波器组进行倒谱分析的。理论分析和实 验结果都表明这种新测度的总体性能优于MFCC谱失真测度。它在主观感知 上与Bark谱失真测度相当,而其计算复杂度却与MFCC谱失真测度相似,远 低于Bark谱失真测度,适于实时系统的应用。2.提出了一种新的子波变换,即语音信号Bark子波变换。它是基于语音感知实 验中Bark频率尺度的概念推导而来的。数学上它是一种非正交的,但却是超 完备的,可逆且是自反演的子波变换。应用在语音识别中时,利用子波变换 的局部基性质,它能取较小的帧长进行分析,因而与MFCC特征提取相比, 在同样的频率分辨率情况下能获得更高的时间分辨率。相关识别实验表明, Bark子波变换的特征在辅音的区别能力方面优于目前广泛应用的MFCC特 征。3.建立了一个语音质量客观评价系统。它是采用一个符合汉语统计规律的语音 数据库,并进行了规范的主观音质评价得到的结果作为基础而建立成的。首 先分别对LPC倒谱、Mel倒谱、Bark谱、(加权)对数谱及它们的组合测度的 主客观评价相关模型进行了大量的实验性研究。并且采用了一些独特的方法 较好地解决了原始语音信号与失真语音信号之间的同步问题。所建成的系统 是一个可靠的实用评价系统。4.提出了一种基于神经网络的语音质量客观评价方法。它是采用前向神经网络 实现语音质量客观评价的一步法策略。传统的方法通常包括失真计算和由失 真测度到主观得分估计的非线性回归分析两步。新方法将这两步整合为一步, 采用神经网络自适应地逼近听觉系统的高维非线性感知特性,避免了失真测 度函数和回归分析的函数形式的人为假定。统计学理论分析表明:一步法是 在主观得分一级的算术平均,其估值是MOS的一种无偏一致估计,是比常规 方法更有效的估计子。对比实验结果也证明了其优越性能。5.基于上述一步法策略,采用径向基函数网络设计了一个更加顽健的语音质量 客观评价系统。在该系统的设计中,对其结构和训练算法方面进行了大量的 探索,解决了一些与实用性有关的关键问题。与基于MLP的系统相比,它在 主客观相关性方面和可扩展性等方面均有所提高,并有较大改进余地。