论文部分内容阅读
汉语连续语音识别拥有可观的应用前景和深远的研究价值。汉语的发音短、混淆性高、方言多等特性,使得汉语连续语音识别比英语连续语音识别难度更大,成为目前语音识别领域研究的热点和难点问题。本文在卡内基梅隆大学开发的Sphinx语音识别系统的基础上,结合汉语发音特点对中等词汇量、非特定人的汉语连续语音识别系统进行了基础性的研究。汉语连续语音识别实质上是在汉语的声学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列,需要涉及到特征提取,声学模型、语言模型、搜索算法等方面的知识和技术。Sphinx系统代表着连续语音识别的较高水平,本文正是借鉴了其先进的技术,结合汉语发音的特点构建了汉语连续语音识别系统。语音的声学模型和识别理论是构建语音识别系统的基础。完整的连续语音识别系统主要包括四个部分:特征提取,声学模型,语言模型和搜索算法,本文就是根据这四个部分展开的。本文首先介绍了汉语连续语音识别的发展历史和相关理论知识,接着按照语音识别系统的处理步骤详细地分析了各个过程,重点对MFCC特征提取做了详细的分析。在深入研究Sphinx系统中声学模型训练工具Sphinxtrain和语言模型训练工具Cmucmltk代码的基础上,通过修改相关参数,训练了适合汉语识别的声学模型和语言模型。模型训练完成之后研究解码端Viterbi搜索算法,结合识别引擎Pocketsphinx实现了汉语连续语音识别系统的构建。文章最后通过实验和数据分析,验证了系统的有效性。本文主要进行了两个系统的设计:首先以CASIA汉语数字串语音库训练声学模型和语言模型,构建了汉语连续数字识别系统,该系统句子识别率达到了90%,词识别率高达97.2%;其次以CASIA98-99语音测试库训练声学模型和语言模型,建立了一个中等词汇量的汉语连续语音识别系统,该系统性能较之前者识别性能欠佳,句识别率为70%,词识别率为96.7%。全部数据显示了系统的有效性。