论文部分内容阅读
近年来,随着科学技术的迅猛发展,语音识别技术被广泛应用于各行各业。本文在分析和总结前人研究的基础上,提出了基于多特征参数混合的研究思路,以此来解决在识别率和鲁棒性方面存在的问题。由此可见,如何提取高效全面完整的语音特征信息成了本文研究的重点。具体研究内容如下: 1.简单了解了语音识别的发展现状,结合识别模型分析了系统组成结构及其原理,并对涉及的算法进行了数学推导和实验仿真,同时比较了常用语音识别算法的优劣。 2.重点研究了时域和频域特征参数的提取算法以及参数混合方法。常用的时域和频域特征参数包括短时过零率,基音周期,短时能量,以及线性预测倒谱系数(LPCC),梅尔倒谱系数(MFCC),伽马通滤波器系数(GFCC)等。针对以上每个参数给出了详细的提取算法,并比较和分析了各参数的优缺点,在综合发声机理和人耳听觉特性的基础上,提出了时域和频域参数混合的方法。然后对主成分分析(PCA),K-means聚类,Fisher准则等数据降维方法做了简单推导,依照各参数特点,提出了两种混合方案:第一种是PCA与K-means相结合或者单独使用的方案,第二种是Fisher与K-means相结合或者单独使用的方案。最终用MATLAB完成对各特征参数提取算法和混合方法的仿真,实验表明,在不同信噪比下,第一种混合方案混合特征参数比单一参数平均识别率高2.6个百分点,第二种方案高4.1个百分点,但二者的运行时间并无较大差异。 3.仿真了整个系统,证明了混合算法的可行性,尤其对比了两种混合方案下基于DTW或HMM识别系统的实验结果,结果证明在平均识别率方面后者比前者高6.6个百分点,但在运行时间方面前者比后者平均少1.7s。并依照DTW的软件仿真流程搭建了一个基于TMS320C6713 DSK的孤立词识别系统,经多次实验给出了实验结果,证明在正常实验室环境下系统识别率为89.63%。随后给出了对整个研究工作的总结,为下一步工作提供了思路指明了方向。