论文部分内容阅读
目前广泛使用的语音识别算法包括矢量量化(Vector Quantization, VQ),高斯混合模型(Gaussian Mixture Model, GMM),隐马尔可夫模型(Hidden Markov Model, HMM)等。这些经典的语音识别算法是基于模式匹配的方法实现,这使其在语音分类中的性能受到挑战,尤其是在对相近的中文姓名语音的分类中。近年来提出的支持向量机和上述模型有根本的区别,其本质是一种判别式模型,因此对于相近模式有较强的识别性能。经典的语音识别模型能够对不定长语音建模,而支持向量机具有更强的分类能力,因此如果能够将二者结合起来,则可能充分发挥它们的优点。支持向量机中使用的核方法为我们提供了途径。Fisher核的提出首次实现了将概率模型与支持向量机等判别式分类器相结合,并应用于生物同源性检测中。Fisher核中的关键参数,即Fisher品质(Fisher score),表示了待分类模式通过概率模型提取的特征向量。本文就是试图通过语音识别中的概率生成模型(GMM, HMM)推导Fisher品质,并将其用于语音识别。Fisher品质可以将不定长语音特征序列映射到固定长度的品质空间,作为支持向量机分类的特征空间。本文对语音识别的经典算法(VQ, GMM, HMM)进行了比较深入的考察,并开发了基于PC的姓名语音身份验证系统。算法之间的联系为推导Fisher品质提供了方便,因此本文首先从简单的GMM入手推导Fisher品质,再过渡到通过HMM求取Fisher品质。对于从HMM求取Fisher品质,本文从HMM的训练算法中用到的前向-后向变量入手,利用这些变量表示模型最终输出概率,并且将其转换为矩阵形式,为推导和理解提供了方便。基于对Fisher品质的本质作用的分析,本文对Fisher品质空间做了扩展,在扩展品质空间中引入了新的品质向量。并从泰勒级数展开式的角度论述了各类品质向量的物理意义的不同,最后通过实验验证了扩展品质空间有利于分类性能的改善。本文通过对经典语音识别模型的实验,比较了不同算法的性能,揭示了生成模型在对相近语音,特别是相近中文姓名语音的识别中具有较高的误识率。通过利用线性和非线性支持向量机分类的实验,验证了Fisher品质空间及扩展的品质空间是有效的特征空间,通过将生成模型与支持向量机相结合,可以提高对相近