论文部分内容阅读
随着自动语音识别从孤立词发展到大词汇量连续语音,发音词典已成为这类系统的重要组成部分之一,它一方面对语言模型有着影响,又在词层次上约束声学模型。当前,如何确定发音词典,即其规模及词条,仍是一个开放问题。现有方法仅从文本层面采用与语音识别性能无直接联系的语言模型度量来确定词典,采用贪心策略得到局部最优词典,并未利用声学混淆信息。相对于英语等其它语种,汉语词有三个重要特点:首先,汉语对“词”无明确地定义,“词”的边界模糊;其次,汉语词存在多发音;最后,汉语词的同音现象严重。它们对于汉语语音识别词典确定有着重要的指导意义。本文针对汉语词的这三个特点,重点研究汉语语音识别中如何结合语言信息和声学信息来确定发音词典,以及如何引入词权重提高词典内各词的区分度。本文工作主要包括以下三个部分: 第一,针对音字转换中的发音词典,提出了错误驱动的增量式词典确定方法。该方法充分利用音字转换的错误信息,以音字转换性能作为目标函数,从候选词集中选择同音混淆较小的词,通过对二元文法的复合来降低词间的发音混淆,同时引入词的剔除和复合词的拆分机制控制词典规模,结合模拟退火来获得全局最优的词典。音字转换实验表明,与同等规模词典以及性能最好的基线相比,该方法均获得较好的性能。 第二,针对语音识别中的发音词典,提出了基于音子网声学信息和错误驱动的增量式词典确定方法。该方法基于音子网中的声学混淆信息,结合语言信息,利用语音识别的错误信息从候选词集合中挑选混淆较小的词,并将错误的二元文法复合成音节数较多的词。同时引入剔除和拆分机制,通过模拟退火来避免陷入局部最优。语音识别实验表明,在同等规模下,该方法构建的词典可以得到绝对1.01%字错误率的下降。在保证性能不变的前提下,可将词典规模从30000词降低到20000词。 第三,针对发音词典的词间发音混淆问题,提出了利用区分性训练学习词权重的方法。该方法用最大互信息准则、大边界估计准则和软边界估计准则,及近似-优化来融合声学信息、语言信息和词汇发音信息,区分性地学习词权重。语音识别实验表明,最大互信息准则、大边界估计准则和软边界估计准则的词权重区分性学习均得到了显著提高,其中软边界估计准则的性能最好。 以上三方面的工作,有效地提高了汉语语音识别的性能,并实验验证了发音词典对汉语语音识别的影响和重要性。