论文部分内容阅读
少数民族语言进行语音识别时存在训练数据稀疏导致识别率低的问题。该文在对低资源的柯尔克孜语识别时,采用交叉语种的CMN(convolutional maxout networks)构建声学模型,使用同一语系资源丰富的维吾尔语语料和反转dropout正则化方法对CMN进行预训练,鉴于两种语言的相似性,基于数据驱动方法创建音素映射对标注待识别语种的数据,并用柯尔克孜语数据对CMN进行微调。实验结果表明,所提CMN模型较CNN模型字错误率(WER)有19.8%的相对降低;使用元音敏感的上下文音素映射集对识别出的音素序列进行解码,字错误率进一步降低。