基于HMM的汉语数字语音识别系统研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:sjzm2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人与机器之间进行交流的重要工具,语音识别技术就是让机器听懂人类的语音并执行相关动作,具有广泛的应用背景。虽然在这方面的研究有很多,但目前仍有许多问题有待进一步探索。 语音的基本声学模型和基本识别理论是构建语音识别系统的基础,也是进行进一步科学实践活动的理论指导和依据,所以,本文首先介绍了语音识别系统的概况和语音的声学模型结构,然后按照语音识别系统的处理步骤详细地分析了各个过程的重点知识和不同理论算法间的联系,并对他们进行了比较。因为特征参数的选取对整个语音识别系统的实时性、鲁棒性等都有很大的影响,所以文中对语音信号的短时时域特征和语谱图进行介绍后,详细阐述了目前本领域中最常用的线性预测分析系数(LPC)、线性预测倒谱系数(LPCC)及Mel频率倒谱系数((MFCC)等特征参数的提取方法,理论依据,性能比较等,并对与它们的性能关系最重要的失真测度进行了讨论。 文中论述了动态时间归整理论(DTW)和隐马尔可夫模型(HMM)原理,用MATLAB语言编程研究了它们在语音识别系统中的应用。用DTW理论进行孤立词语音识别时比较了特定人的语音和非特定人的语音的识别及特征参数的选择对识别率的影响。此外,实际构建了基于HMM模型的非特定人小型孤立词语音识别的整个系统,该系统可选用不同的特征参数,并具有较好的鲁棒性。用该系统对“0至9”十个数字进行了识别实验,实验发现用LPCC参数时,选取12维的识别效果最好;26维的MFCC参数的识别率比12维的LPCC参数的识别率高10%左右。在实验中还发现,一些容易使识别系统弄混的数字对整个系统的识别率有一定负面影响,针对此问题,本文提出了一种识别易混数字的利用韵律信息的识别方法,并将此方法用于了本系统的实验中,在实验中使识别的效果有了一些提高。
其他文献
这篇论文关注的重点是无线Mesh网络中的路由算法。无线Mesh是WiMAX协议中定义的网络模型之一,有着组网灵活、简单的特点。作为PMP网络有效的补充,Mesh网络可以以很小的成本扩大PMP网络的覆盖范围,因此Mesh网络一直都是学界研究的热点。由于Mesh网络的自组织特性,路由算法就成为了决定网络QoS的关键因素。文章中回顾了Mesh网络中的主流路由算法包括AODV、DSR、DSDV、TORA和
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊
期刊