论文部分内容阅读
语音识别是模式识别领域的一个重要的研究课题,它的发展将会对未来的人机交互界面带来极大的影响。而在语音识别的研究中,基于动态词表的嵌入式语音识别仍然是具有挑战性的一个课题。目前虽然已有许多嵌入式语音识别系统问世,但是其性能还远远达不到大规模应用的要求,对于它的进一步研究具有重要的实际意义。本文以开发“基于动态词表的孤立词语音识别系统的DSP实现”为目标,对基于动态词表的孤立词语音识别模块进行研究和开发,使其具有训练步骤简化、增加识别内容方便,具有较高的孤立词识别率和较快的识别速度等特点,改变逐个内容训练的传统方式,使应用更方便、更人性化。首先,本文详细地介绍了语音识别的基本理论以及HMM在语音识别中的应用。其次,本文系统地介绍了基于动态词表的孤立词DSP语音识别系统的功能要求和结构设计,并概要地介绍了嵌入式DSP芯片的发展及特点。然后,本文介绍了该系统的具体实现方案,组成系统的各个模块以及系统各个模块在移植过程中的定点化和程序优化方案。训练模块,用HTK训练出基本声学单元模型,训练集是大词汇量连续语音,生成HTK标准格式的声学模型文件。在本系统中我们直接采用已经经过HTK训练的声学单元模型。参考模式库生成模块,这里包括了词典编辑、自动标注和参考模式库生成部分。参考模式库是以词典的标注文件作为索引,由基本声学单元模型的动态拼接而成的,即动态拼接生成词模型的过程。考虑到DSP内存空间有限,本文采取分割声学模型,分成两个部分,逐个载入的方式将声学模型调入DRAM中。对声学单元采用状态和模型混合的方式建立索引,由于61个模型的183个状态在总的帧数下占用空间很大,如何存储这部分数据,程序最后采用了向DSP的一个固定地址空间写入数值的办法解决了这个问题。语音信号处理和识别模块,语音信号处理包括了端点检测、特征提取等关键处理过程,识别过程是语音信号的特征向量和参考模式做相似性度量的过程。最后,本文还介绍了实现系统的过程中遇到的问题及解决方案,并对今后的工作提出了展望。