论文部分内容阅读
声学建模是语音识别领域中的关键问题之一,其精确性直接影响语音识别系统的性能。如何建立更精确的声学模型一直以来都是研究者关注的重点。本文以提高声学模型参数的准确性和连续语音识别系统的性能为主要目的,对声学模型训练中状态聚类前三音子模型参数的估计和声学模型自适应进行了研究。首先,为了提高汉语连续语音识别中决策树状态聚类的精度,对状态聚类前三音子模型的优化进行了研究。决策树的构建与其所用的三音子模型参数的准确度存在密切的关系。训练语料中存在大量的稀疏三音子,因此在声学模型的训练过程中,状态聚类前三音子模型的训练存在数据稀疏问题。针对此问题,提出采用最大后验概率(MAP)准则估计状态聚类前三音子的模型参数。另外,MAP估计对模型的初始参数要求较高,而仅是音调不同的带调声韵母三音子集合之间的相似度比只有中心音子相同的带调声韵母三音子集合之间的相似度要高,因此采用无调声韵母三音子的模型参数初始化有调声韵母三音子的模型的方法,来提高有调声韵母三音子模型的初始参数的准确度。通过这些策略,提高了系统的识别性能。其次,对区分性最大后验概率自适应进行了研究。最小音素错误最大后验概率(MPE-MAP)算法在区分性训练中融入先验信息,实现了声学模型的区分性自适应。先验分布中的超参数的准确程度对MPE-MAP的性能有很大的影响,针对此情况,分别采用最大互信息最大后验概率(MMI-MAP)和基于最大互信息准则与最大似然准则相结合的H-criterion最大后验概率(H-MAP)自适应算法估计先验分布中的超参数,提出了MPE-MMI-MAP和MPE-H-MAP算法。两种算法通过提高超参数的准确度来使自适应后的模型得到优化,从而提高了自适应的性能。然后,对区分性线性变换自适应进行了研究。I-smoothing技术对区分性线性变换自适应方法非常重要,其通过在区分性目标函数中加入变换矩阵的对数先验分布来实现。本论文在实现区分性线性变换中的平滑时采用均值的先验分布,提出了基于均值先验的平滑方法。如果用最大似然(ML)估计的统计量定义均值先验分布中的超参数,可以得到和I-smoothing相同的结果。针对自适应情景中数据量非常少,采用ML估计的参数存在准确度不高的问题,提出采用MAP估计的统计量定义先验分布中的超参数,使区分性线性变换在少量自适应数据的情况下得到性能提升。另外,为了将区分性和最大后验概率相结合,本论文设计了一个新的目标函数来估计线性变换参数,提出了区分性最大后验概率线性回归自适应算法。实验结果表明,该算法在少量自适应数据的情况下可以提高自适应的性能,在大量自适应数据情况下仍能保持区分性线性变换的性能。最后,对线性投影(LP)自适应方法进行了研究。LP函数对多个初始模型进行线性变换,来得到自适应后的模型,可以看作是线性回归(LR)函数的扩展。本论文提出了基于变换矩阵的LP自适应方法,该方法采用说话人自适应(SA)模型作为初始模型,并用变换矩阵表示特定人信息。在选择初始模型时采用了最大似然的方法,以选择具有最重要信息的模型作为初始模型,减少所要估计的参数的数量,从而实现了一种快速自适应算法。