论文部分内容阅读
随着计算机技术的迅猛发展,人们对计算机使用方便程度的要求越来越高,语音作为一种自然的人际交流模式,已经成为一种重要的人机交互方式,是新一代人机交互所不可缺少的一项关键技术。
语音识别以语音为研究对象,是模式识别的一个分支,也是语音信号处理的一个重要研究方向,涉及到生理学、心理学、语言学、计算机科学等诸多领域,它的最终目的是让机器人能听懂人话。由于语音本身具有多样性、多义性、模糊性等特点,加之环境噪声的干扰等问题,虽然语音识别的研究已有几十年的历史,但是它的产品达到实用化的不多,语音识别技术仍是一个重要的研究课题。
本文在剖析了语音识别系统构成的基础上,深入研究了语音识别系统的各项核心技术。首先针对在低信噪比时不能准确检测语音信号端点的问题,结合短时能量和谱熵各自的特点,提出一种基于短时能量和谱熵加权的端点检测方法,并通过实验证明,在较低信噪比时仍能取得较好的端点检测效果,能够提高语音识别系统的识别率;然后对常用的特征参数提取方法进行分析比较,针对噪声会影响有效语音段的特征参数的准确性问题,提出将有滤波功能的减谱法融入到基于离散小波的Mel频率倒谱系数(DWTMFCC)的参数提取方法中,实验证明,利用该方法提取出的特征参数可以有效提高语音识别系统的识别率;此外,本文讨论了语音识别中训练和识别的常用方法,深入研究了隐马尔科夫模型在语音识别中的具体应用;最后在语音识别核心技术的研究基础上,在MATLAB环境下,利用前面提到的技术方法,设计实现了一个对汉语数字0~9的可实时交互的语音识别仿真平台。