论文部分内容阅读
随着人-机交互技术的日益发展,语音识别已经成为当前人工智能与模式识别领域研究的重点。语音是人类最重要和最方便的信息传递方式,也是实现人-机交互的最直接途径之一。让机器能够准确地识别出语音命令并执行相应的操作,具有重大的实际意义,相关研究在医学、军事和工业等诸多领域有着广阔的应用前景。然而,由于受环境噪声的影响,现有语音识别技术在现场环境下的识别率往往会急剧下降。因此,如何提高语音识别系统的稳定性,已成为语音识别领域的一个关键问题。本文对基于滑动窗的快速语音端点检测和基于独立分量分析的语音增强方法等进行了研究,具体工作如下:(1)语音信号的前端处理和端点检测。介绍了语音信号的前端处理方法,主要包括语音信号的数字化、预加重和加窗分帧;提出了一种基于滑动窗的高阶累积量递推估计算法并将其应用于语音端点检测中,进而提出了一种基于动态高阶累积量的语音端点检测算法,文中详细阐述了该算法的思路和检测流程。最后在不同噪声和信噪比环境下对比了该算法与G.729b端点检测算法的检测性能,实验结果表明本文所提端点检测算法在噪声环境下具有良好的鲁棒性和较好的运算效率。(2)独立分量分析(Independent Component Analysis, ICA)算法研究。首先介绍了独立分量分析算法的原理,包括ICA算法中所涉及到的混合模型、目标函数的构造和优化算法;然后重点研究了卷积混合模型下的独立分量分析算法,阐述了算法的思路和实现流程,介绍了三种复域瞬时ICA算法,包括联合近似对角化算法(Jointly Approximate Diagonalization Eigenmatrics, JADE)、基于峭度极大的复域ICA算法和基于信息极大的复域ICA算法(复域Infomax算法),并分析了ICA所固有的模糊性问题以及解决方法:最后在MATLAB下进行了一系列的仿真实验。实验结果表明:本文所采用的基于包络系数的排序补偿算法可以降低复域ICA算法中出现错误排序的概率,从而改善了ICA分离效果;所使用的复域ICA算法获得较好的分离效果。(3)基于独立分量分析的语音特征提取。首先介绍了语音信号的一些基础特征参数,包括短时能量、线性预测倒谱系数(Linear Predictive Cepstrum Coefficients, LPC C)和Mel倒谱系数(Mel Frequency Cepstrum Coefficients, MFCC);然后描述了基于独立分量分析的语音特征提取算法思路,并详细说明了其实现过程。(4)基于ICA分离技术的语音识别系统的实现。首先介绍了基于动态时间规整(Dynamic Time Wrapping, DTW)和基于隐马尔科夫模型(Hidden Markov Models, HMM)的语音识别技术,重点研究了基于HMM的语音识别技术的工作原理。然后分析了基于ICA的语音识别系统的组成,并在MATLAB环境下实现了系统各模块的功能。最后在仿真条件和真实环境下进行了语音识别对比实验。实验结果表明,结合了独立分量分析技术与滑动窗技术的语音识别系统在噪声环境下具有较好的鲁棒性。