论文部分内容阅读
随着现代计算机技术的发展,人与计算机之间交流的界面早已不局限于鼠标和键盘。越来越多的新的交流手段被引入到计算机中来,而语音数字处理和语音识别技术的进展使语音逐渐成为了一种有效的计算机输入手段。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。
语音识别技术关系到多学科的研究领域,包括声学,语言学,数字信号处理,计算机科学,人工神经网络等不同领域上的研究成果都对语音识别的发展作出了贡献。语音信号本身的特点造成了语音识别的困难,这些特点包括多变性、动态性、瞬时性和连续性等。计算机对语音识别的过程和人对语音的识别过程基本上一致。目前主流的语音识别技术是基于统计模式识别的基本理论。
语音识别所遇到的难题是搜索最佳识别结果和参数训练。人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力等都使它极适宜于解决类似于语音识别这一类课题,它既适用于底层又适用于顶层。由于神经网络反映了人脑功能的基本特征,具有自组织性、自适应性、和连续学习的能力。这种网络是可以训练的,即可以随着经验的积累而改变自身的性能。同时由于高度的并行性,它们能够进行快速判决并具有容错性,特别适合于解决像语音识别这类难以用算法来描述而又有大量样本可供学习的问题。
本文研究了语音识别中孤立词语音识别的方法和特点,分别对语音信号特征参数LPCC和MFCC的提取进行了分析,通过探讨端点检测对语音识别系统的影响,并结合提高语音识别系统稳健性的方案,对传统的端点检测方法做了一定的改进,采用基于MFCC的距离测量法提高了语音识别系统端点检测方法的准确性。基于语音识别中的倒谱技术,实现了语音识别中LPC、LPCC、MFCC等几种特征参数的提取方法;分析了神经网络建模方法及其特点。同时从HMM模型三个基本问题(评估问题、解码问题、训练问题)着手详细研究了其作为当前语音识别主流模型的基本原理,并对在语音识别中的应用进行了分析。最后在此理论基础上,针对非特定人的汉语孤立词识别问题,研究构造了基于HMM和神经网络建模的语音识别算法。该算法的意义主要在于在以隐马尔可夫模型(HMM)为基本语音模型的基础上,引入BP神经网络进行二次识别,有效的利用了隐马尔可夫模型的强时序信号处理能力和BP神经网络的强模式分类和泛化性能,改善了孤立词识别系统的抗噪性能。以往的算法主要是用传统的DTW或HMM方法,该模型则将神经网络应用于该领域,将HMM模型和神经网络BP模型联合起来应用于语音识别当中,提高了小词汇量非特定人汉语语音的识别率,表明了混合网络在语音识别中的优势。