论文部分内容阅读
汉语不同于英语的一种语音,最显著的差别在于语调,汉语是个有调语言,而英语中并不存在调一说。因此声调成为了汉语一个非常重要的特征,并运用到许多语音研究领域,比如语音合成,语音识别,以及语音编码。本文我们研究对象是标准普通话。孤立字声调模型相对稳定,因此,孤立字的声调识别相对而言比较容易。而连续语音的声调识别却并不容易,主要原因是连续语音的声调协同作用。协同作用是导致连续语音声调模型多样性。传统的方法是对每个变调进行建模从而进行模式识别,但是,标准声调的变调模型之间往往存在重叠。这是很多连续声调识别方法难以提高识别率的根本原因。语音不可避免会被噪声污染,而噪声往往会影响声调的检测。为此,语音增强预处理是非常有必要的。本文主要研究内容和创新成果如下:1.提出新的子空间语音增强算法子空间算法主要包括信号维数估计和信号空间滤波处理过程。传统子空间算法运用噪声估计来确定信号维度,这并不合理,因为,实际噪声多数都是非稳定的。对此,本文运用基于重建误差函数的方法估计信号维数。其主要原理是基于主要成分分析方法(PCA)计算重建误差,误差越小,重建信号就是最优的,从而估计出信号维数。考虑到噪声的非稳定性,运用跟踪算法实时地估计噪声。理论上,信号子空间中减法运算是可以去噪的,这种算法类似谱减法语言增强。但是,子空间内单纯减去噪声的方法并不能有效实现去噪。为此,我们运用了维纳滤波的算法代替减法算法来去除混合子空间内的噪声。实验证明,本文提出的新的子空间算法能有效实现语音增强。2.提出了新的基于稀疏的语音增强方法语言信号是近似稀疏的,而且多数的能量都存在于低频段。本文结合这一特点设计了复合稀疏字典进行语音增强,即是运用稀疏字典来描述语音低频部分,运用固定字典描述语音高频部分。因为,高频段的语音成分也是不可忽视的,所以运用一个固定字典去描述也是非常有必要的。实验证明这种方法非常有效。然而,这种方法并不适合所有情况,当信噪比比较小或者比较大时,复合字典的性能急速下降。我们认为这种现象主要是语音和噪声之间的分类明显造成的,这种情况下,我们认为噪声也是稀疏性的,我们运用复合字典分别描述噪声和语音。实验表明,这种算法能有效改进高信噪比和低信噪比条件下的语音增强性能。3.基于相邻声调信息进行连续声调识别传统连续声调的识别算法并没有考虑这种模板重叠现象。本文的声调识别方法中,所有声调被划分为四个声调模型,运用模糊算法实现声调预识别。同时结合相邻声调相互影响规律,对已知连续声调序列进行预测,从而形成声调字典。最后结合声调识别结果和预测结果得到声调识别结果。为了验证声调识别算法对本算法的影响,本文也运用了支持向量机和时间规整化模板匹配算法进行对比分析。实验结果表明本文的声调识别算法优于传统算法,不会受到声调识别算法的影响。相对于无监督的识别算法,有监督的算法更加稳定有效。