论文部分内容阅读
该文对语音识别声学语音模型的统计建模方法进行研究.其主要内容有以下几个部分:第一部分在研究了CDHMM的两种最大似然训练算法--基于标准最大似然判据的Baum-Welch前后向重估算法和基于Viterbi最大似然判据的分段k-均值算法的基础上,将模糊集思想引入到CDHMM的最大似然参数估计中,提出了基于Viterbi判据的分段模糊c-均值CDHMM最大似然训练算法,作为普通分段k-均值算法的改进;第二部分在研究了HMM的最大似然(非鉴别)及鉴别训练算法的基础上,结合MLP的鉴别分类能力和HMM的时间序列建模能力,提出了一种新的用于语音识别的HMM/MLP混合网络,它利用所有语音基元HMM各状态对应的部分Viterbi似然值作为MLP的输入矢量,通过有导师的MLP训练,以克服HMM最大似然训练的模型正确性假设,提高了模型的鉴别能力;第三部分在指出了基本的HMM模型本身所隐含的三个不合理假设的基础上,详细讨论了基于语音段的STM建模方法,并结合STM特性及汉语语音特色,对汉语连续语音识别基元的选取进行了研究.第四部分在随机轨迹模型和神经网络技术基础上,利用STM的强时间序列建模能力和保存语音轨迹信息的优越性,并以MLP作为语音特征序列预测器,利用语音模式中的时间相关性作为识别线索,提出了神经网络预测随机轨迹混合模型语音识别方法,其继承和保留了基于语音段(或语音轨迹)建模思想的主要优越性,并从一定程度上克服了STM的一些弱点.