论文部分内容阅读
语音识别的研究目标是实现“语音-文字”的正确转换。基于Bayes原理的语音识别模型涉及声学层和语言层知识的适当表示和运用。多年的研究表明,根据具体研究对象的特点确定识别基元、进行准确的端点检测、提取能够更多的表现不同识别基元相互之间声学差异、对多种干扰因素有较强免疫力的特征参数、在此基础上建立具有最小重叠空间分布的识别模型对于提高语音识别率具有重要的意义。本文主要致力于自然和电话语音的端点检测、汉语音节整体结构声学识别模型的构造、低信噪比下稳健的英语数字识别模型设计与性能分析,并通过反复的实验证明新的算法和模型是可行有效的,部分研究成果已经用于设备型号研制。 本文主要包括以下创新之处: (1)针对高信噪比汉语连续语音端点模糊问题,提出了基于汉字音节短时峰谷点能量的端点检测算法。该算法简单易用,检测准确度高。实验数据显示汉语音节端点的检测率达到96%以上。 (2)在分析了汉语连续语音的协同发音产生的弱化发音现象和时域端点检测算法的缺陷之后,设计了基于多子带谱特征的汉语端点检测算法。该算法利用语谱带上的分层信息精确捕捉相邻汉字音节的局部跳变时间点,可以检测到一般的检测算法极易疏漏的弱化音节的端点。该算法的平均检测率大于97%。 (3)根据电话信道数字语音信噪比低和噪音特性随机多变的特点,设计了适合窄带电话的帧时域能量与主频带能量(300~1500Hz)的混合脉冲检测模式,通过对脉冲序列的整形、滤除合并、位置微调确定数字端点。该算法突出的优点是适应的信噪比动态范围较宽,即使信噪比只有3.5dB,也能准确地检测到边缘时间点。 (4)在深入分析DTW和HMM模型的基础上,结合汉语语音结构特点,设计了一种新的基于汉字音节整体MFCC向量模型。该模型能够根据各个音节的持续时间动态地调整帧长,更加完整地表现了语音时频信息的演化过程。在同样的测试条件下,固定帧数比固定帧长的识别率提高3.0%以上。文中还分析了几个主要影响汉语识别率的参数:滤波器组数、语音帧数、MFCC向量维数、距离加权系数、中值滤波器阶数、输入滤波器带宽等,这些参数恰当地设置对于识别率有积