论文部分内容阅读
经典HMM理论用于语音识别有一些缺点,尤其是“状态输出独立假设”忽略了语音特征间的时间依存性,阻碍了识别性能的进一步提高。时间依存性表现为由于发声器官惯性所导致的相邻语音帧之间的相互影响。论文在建立新语音识别模型以便有效利用语音的时间依存性方面做了一些有益的研究,提出了一系列新的概念,方法和模型,取得了令人满意的实验效果。
首先,认识到传统的“基于最大似然学习的识别器设计”方法在实际应用中的一些不足,论文提出了“基于最小后验熵学习的识别器设计”方法。基于此,论文提出了“时间依存性声学模型的一般形式”及其训练和识别算法,阐述了由鉴别函数表达的声学模型的概念,为具体的时间依存性模型的研究提供了一个灵活的框架。
接着,论文讨论了“线性预测HMM”用于语音识别存在的问题,给出了在HMM中引入线性预测考虑时间依存性的新的分析。由此,在“基于最小后验熵学习的识别器设计”框架下,提出了“多预测组合”(CombinationsofmultipleLPs,CoLP)方法,得到一种“多预测组合时间依存性模型”-CoLP模型,提供了一种新的使用多个预测子考虑时间依存性的有效途径。论文提出了“拼音格方法”,以及避开Hessian阵的实际计算使用“阻尼牛顿法”,实现了CoLP模型的“最小后验熵参数训练”。
综上所述,从概念提出,具体模型形式的建立(“多预测组合时间依存性模型”),到模型参数的训练算法,论文完成了一个有效利用了时间依存性的“基于最小后验熵学习的识别器设计”。
汉语非特定人连续语音识别的实验表明:一个“完整的最小后验熵训练CoLP模型”在男声、女声多个测试集下,取得了与基线(状态输出独立)HMM相比38~50%的相对错误率下降,且表现出很好的对不同说话人的一致性。与首选的错误率降低相比,多候选错误率则有更大幅度的降低:与基线HMM相比,取得了53~66%的5选相对错误率下降。