论文部分内容阅读
随着普通话使用范围和要求的不断提高,普通话学习与训练工作的数量和难度呈指数增长,推广普通话工作仍很艰巨。同时随着计算机语音识别技术的发展,语音识别技术已经取得显著进步,从而使利用计算机语音识别技术实现普通话学习和训练成为可能。普通话学习和训练系统一般都是基于语音识别系统的,它对受地方口音影响而导致的相近、相似、模糊的发音容易产生识别错误,严重影响了普通话学习的效果。因此我们有必要对受地方口音影响的语音进行有效区分,以便提高普通话学习和训练系统的性能。本文的主要内容是对受四川口音影响的语音进行声学建模,提取对四川口音敏感的特征参数;同时讨论了这种特征参数对受四川口音影响的语音的进行识别效果。首先,根据四川人说普通话的特点,分析了带四川口音的普通话与标准普通话之间区别,选取了四川人说普通话一个较为普遍产生错误的语音-声母为zh-z/ch-c/sh-s的语音作为研究对象。其次,考虑到低信噪比情况下语音端点检测的难点,提出一种基于相关性和高维空间向量的自相关夹角余弦值的方法来对低信噪比下的语音进行端点检测。实验表明这种方法计算复杂度较低,而且在低信噪比的情况下仍能较好的检测到语音信号的端点。再次,为了在进行普通话学习和训练时更好的区分那些受地方口音-四川口音影响的相近、相似、模糊的语音,提高它们的识别率,本文对受四川口音影响的语音进行了声学建模,提取了对地方口音敏感的特征参数。具体将分两个步骤进行:第一步提取初始特征特征参数,包括12阶的倒谱系数LPCC和LPCC差分倒谱,12阶的美尔频率倒谱系数MFCC和差分美尔频率倒谱系数和一维的基音特征;第二步通过基于正交实验法、增减特征分量法和特征加权的二次特征提取得到易受四川口音影响的语音信号的特征参数。最后,采用矢量量化技术对初始特征参数和通过二次特征提取得到的特征参数进行对比实验,实验表明经过二次特征提取得到的特征参数有效地改进了易受四川口音影响的语音的识别效果,提高了识别率。