论文部分内容阅读
大词汇量连续语音识别系统的性能在很大程度上取决于语音库的质量,而语音库设计的中心环节就是语料选取。本文根据古藏文音韵体系,建立了基于半音节的藏语连续语音语料库。首先10万句藏语文本中的每个字进行了声韵母分离;然后统计了音节内的声韵组合形式和音节间的韵声组合形式;最后在结合半音节组合的覆盖率和稀疏度的基础上,完成了语料抽取算法,设计出具有较高质量,冗余度小的蔵语连续语音语料库。