论文部分内容阅读
语音识别作为一个交叉学科,具有深远的研究价值和广泛的应用价值,是计算机技术研究和发展的一个重要领域。虽然目前语音识别技术已经取得一些成就,也有一些产品面世,但是大多数语音识别系统仍局限于实验室,在投入实际应用方面存在诸多限制。速度和精度是语音识别系统的关键,本文按照语音识别的流程,对语音识别关键技术进行了深入研究。首先,论文在介绍分析了语音信号产生的数字模型和语音信号预处理问题之后,针对传统端点检测算法的不足,提出了一种基于短时能零差分阈值的端点检测算法。语音端点检测直接影响语音识别率,是语音识别最基本而又最重要的环节。实验证明,新算法检测准确率提高了19%,且平均检测耗时节约了25.7%,优于传统算法。其次,论文对各类语音特征参数进行了讨论,并且在深入研究MFCC参数的基础上,提出了一种新的IMFCC参数。实验证明,新的特征参数对MFCC进行了特征加权、差分和PCA降维等一系列处理后,增强了语音识别系统的鲁棒性,在各种信噪比下的平均识别率提高了4.5%;节约了10.5%的系统训练时间,提高了识别系统性能。论文重点研究了基于HMM模型的语音识别技术。HMM模型应用于语音识别巨大的推动了语音识别技术的发展,它也是目前语音识别技术中最常用的建模技术。但是传统的HMM模型初始化方法过于简单粗糙,本文针对这点不足,提出了更符合语音实际的模型初始化算法。实验证明,新的初始化算法使得平均模型训练时间节约了24.7%,并且系统识别率提高了3.2%。论文在对语音识别理论研究的基础上,利用Matlab仿真软件建立了一个基于10人语音数据库的语音识别仿真系统。对汉语孤立字识别,本系统能较好满足基本需求,识别率达到92%。这为今后对语音识别技术的进一步研究奠定了基础。论文最后研究探讨了双模态语音识别的相关知识和理论。在复杂噪声环境下,光依靠语音特征已经无法提高识别率的情况下,为了能够得到更高的语音识别率,双模态语音识别技术是目前的研究热点,也是今后作者需要努力的方向。