论文部分内容阅读
随着现代通信技术的飞速发展,语音识别具有巨大的应用前景,涉及的领域非常广泛。在发达国家,一些基于中小词汇、特定领域的语音识别产品已经投入使用,如声控电话拨号系统、语音记事本、电话服务、语音查询等等。但是在大词汇量连续语音识别方面,距离理想的语音识别性能仍有相当的距离。因此,非特定人、大词汇量连续语音识别已成为目前研究的热点和难点,许多相关的问题需要深入探讨。本文从系统和算法的角度出发,以提高模型参数训练的鲁棒性和系统识别性能为主要目的,对基于语音学决策树参数聚类、决策树结构调整和快速说话人自适应等方面做了重点研究。
本文首先研究了基于语音学决策树参数聚类问题。一方面,针对传统决策树状态聚类受稀少三音子的影响,聚类后捆绑状态数过多、节点数据平衡性差等问题,提出了语音学决策树分级状态聚类算法。该算法首先对稀少三音子进行处理,然后对决策树叶节点进行加权合并。另一方面,针对决策树对应状态间的高斯混合参数存在重叠现象,为提高参数训练的鲁棒性,本文采用高斯参数聚类的策略。由于人们通过听觉器官识别语音信号的过程具有一定的模糊性,使得模糊集的思想在语音识别中得到广泛应用,并取得很好的效果。因此,本文将模糊聚类思想引入模型的参数聚类,利用模糊等价矩阵完成模型高斯参数聚类,并利用模糊聚类软聚类的特点构建异音混合共享模型。
接着,本文针对训练语料与测试语料的决策树结构不匹配会对系统性能和说话人自适应造成影响,首先通过研究识别结果中状态之间发生的混淆情况,提出了利用调整决策树叶节点(状态)结构的算法,横向地对决策树结构进行调整,从而减少由于这种结构不匹配造成的识别率降低。状态结构调整算法的基本思想是:1)利用训练语料对状态结构调整可以提高模型本身的精度;2)在此基础上利用自适应语料对状态结构调整可以使决策树结构包含更多的测试人信息。然后,在研究不同复杂度的语音学决策树对系统性能和说话人自适应影响的基础上,本文提出了一种决策树剪枝算法——基于最小描述长度准则的决策树动态剪枝。该算法利用训练充分的决策树作为初始模型,根据自适应语料的数量动态地选择不同复杂度的模型。决策树剪枝时初始模型的合理选择,自适应语料的充分利用以及最小描述长度准则对随机模型和确定性模型的集成,使得这种决策树动态剪枝算法与说话人自适应相结合时取得了较好的识别结果。
本文最后对快速说话人自适应问题进行了研究。在讨论了最大后验概率估计算法、最大似然线性回归算法以及最大似然模型插值算法优缺点的基础上,提出了变换矩阵线性插值算法,并将该算法与最大后验概率估计相结合。这种结合的算法凭借转移矩阵线性插值算法满足快速说话人自适应的特性,又结合最大后验概率估计算法对特定说话人系统的渐近性,较好地提高了说话人自适应的性能。
本文对所提出方法进行了大量的语音识别实验,实验结果表明所提出的方法均能在一定程度上有效地改进系统性能。同时,本文提出的方法具有很强的通用性,适用于具有背景噪音或不同年龄、不同性别等多种情况下的语音识别。