论文部分内容阅读
语音是人类交流最常用的方式,而能让计算机听懂人所说的话一直是人类的理想之一,语音识别技术的出现,使人类的这一理想得已实现。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别正逐步成为人机接口的关键技术,语音识别技术与语音合成技术的结合,使人类能够甩掉键盘的束缚,通过语音命令进行操作。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。因此对语音识别技术的研究具有重要的理论意义和实际价值。 本文首先对语音识别技术进行了简单介绍,然后针对噪声环境下传统端点检测算失效的问题,提出了一种基于听觉模型的小波包自适应语音增强方法,它能够很好地去掉噪声,增强了语音;其次,本文重点研究了语音识别中常用的语音特征参数,主要是线性预测倒谱系数和美尔倒谱系数,发现这些特征参数未考虑淹没在噪声里的有用语音,实际中,噪声中被掩蔽的语音部分人耳虽然无法听到,但是却会造成语音特征参数的改变,使提取的特征与模板库里的特征存在着较大偏差,最终导致了识别率的下降。如果能够提取这部分淹没在噪声下的有用语音,必然能带来识别率的提升,因此,本文提出基于小波与分形的语音特征提取,通过小波包对语音信号的时频划分,使噪声和语音划分在不同的时频域,然后用分形技术进行分析,以分形维为语音特征矢量,实验证明在噪声的环境下新的特征提取比MFCC更稳定,抗噪声能力更强,提高了识别率。最后,本文比较了两种识别模型动态时间规整(DTW)和矢量量化(VQ),比较了这两种方法,在不同语音增强方法、不同的特征参数下的识别时间和抗噪能力。