论文部分内容阅读
语音识别技术自诞生以来就对人类的生活方式产生了深远的影响,因此语音识别技术一直以来都是世界各地学者们深入研究的热点。目前语音识别广泛采用动态时间规整(DTW)技术和基于概率统计原理的隐马尔可夫模型(HMM)技术,将人工神经网络(ANN)应用于语音识别是近年来提出的一种较新的研究方法。语音是一个复杂的非线性过程,因此基于非线性理论,具有自适应性、并行性、鲁棒性容错性和学习性等特点的人工神经网络技术逐渐成为时下语音识别新的研究方向。本文以神经网络中使用率最高的BP网络为模型,初步探索了其在语音识别领域中的应用。本文的研究内容和成果如下:首先,从语音识别的层次模型和系统模型上分析了语音识别的基本原理。研究了语音预处理的整个流程,包括对原始语音信号的采集、预加重、分帧加窗和端点检测,并探讨了不同语音特征值的获取方法,重点分析了美尔频率倒谱系数(MFCC)的提取流程。其次,介绍了人工神经网络的基本结构和特点,并重点分析了三层前馈型误差反向传播(BP)网络,给出了其标准算法的推导过程,分析了该算法存在的缺陷和不足,并在前人研究的基础上做出了对神经元传输函数进行调整的改进。具体方法是通过向tan-sigmoid激活函数引入温度系数和位置系数从而使网络参数信息更加丰富,加快收敛速度,给出了改进算法的推导过程。在改进的BP算法中引入了动量因子,并且采用批处理的训练方式,通过一个简单的函数逼近实验验证了改进算法的有效性。最后,通过matlab和vs开发了一个基于BP神经网的语音识别仿真系统,使用自录的语音完成对系统的训练和识别。在系统中采用了一种时间规整算法,用来对提取的特征参数进行压缩合并,以满足后端BP神经网络对输入数据维数相同的要求。通过实验可以得出如下结论:改进过后的学习算法在识别率和收敛速度上均要优于传统的BP训练算法;基于人耳听觉模型的美尔频率倒谱系数识别效果要好于基于说话模型的线性预测倒谱系数;BP网络隐含层神经元的个数对系统识别率有较大的影响,需要通过实验来确定最佳取值。