论文部分内容阅读
为了能有效地利用语言这种人类最自然、简便和有效的交流方式,研究者们希望机器能够自动地理解和识别人类的语音信号,并将其转变成相应的文本文件或命令,把人类从某些繁琐的操作中解脱出来,即实现语音的自动识别.由于语音识别具有辉煌的应用前景,它一直是近年来模式识别和人工智能等领域的研究热点.一个完整的语音识别系统就是对于输入的音频信号,首先判断其中是否包含语音信号,如果包含,就将语音段和非语音段区分开来(这一部分通常称作端点检测或语音分段),然后对语音段的信号进行特征提取,最后根据提取出来的特征矢量识别语音内容.论文首先就语音的端点检测和识别领域的历史发展和研究现状进行了回顾,对各种检测和识别算法的理论依据和具体实现方法做了较详细的介绍,并简单比较了各种方法的优劣所在.然后对语音的端点检测和识别两方面内容作了一些初步的分析和研究工作.目前安静环境中的孤立词语音识别技术已经相当成熟,语音识别领域研究的重点和难点主要集中在大词汇量连续语音识别和噪音环境中的语音识别两个方面.噪音环境中语音识别的最大困难在于如何将语音信号从背景噪声中提取出来,即语音信号的端点检测问题,在深入分析现有端点检测方法优缺点的基础上,该文提出了一种新的端点检测方法,这种方法直接利用人类语音的频带分布特点,用250-3500Hz频带内的能量和全频带范围内的能量之比,即频能比(FER),作为区分语音(主要是元音)和噪音信号的主要参数,然后使用过零率判断辅音信号的有无,从而确定语音信号的准确端点.实验证明,该方法可以快速准确地在噪音环境中将语音信号检测出来,是行之有效的,为实现噪音环境中语音信号的正确识别打下了良好的基础.另外,该文介绍了基于仿生模式识别的语音识别系统的原理及实现,并将它与现有的几种语音识别方法,包括:分段矢量量化(SVQ),动态时间弯折(DTW)和隐马尔可夫模型(HMM)三种,进行了比较,实验验证和分析了仿生模式识别和良好识别能力,重点讨论了在少量样本情况下仿生模式识别远远优于其它语音识别方法的原因.