论文部分内容阅读
目前的语音识别技术依赖于大量的数据资源,在低资源环境下,语音识别系统的性能将明显下降。世界上总共约有6900种语言,仅有为数不多的几种语言(如英语、汉语普通话等)具有充足的数据资源,大部分语言都是低资源的。随着经济全球化的深入发展,语音识别技术的应用不再局限于英语、汉语普通话等高资源语言。如何在低资源环境下构建高性能的语音识别系统已成为国际上的研究热点与难点问题。本文主要围绕低资源环境下的语音识别技术展开研究,主要完成的工作如下:(1)提出一种基于LSTM-RNN的低资源语音识别声学建模方法。低资源环境下,充分利用语音信号中包含的各种信息的意义格外重要,而GMM、SGMM和DNN模型受到固定窗长限制,只能对窗内有限时间数据进行建模。因此,本文提出将具有长时信息建模能力的LSTM-RNN网络用于低资源语音识别声学建模。在此基础上再加入序贯区分性训练,利用时序信息辅助模型训练,进行参数调整。方法在Open KWS16评测语料上进行了实验,实验结果表明基于LSTM-RNN的低资源语音识别声学建模方法相比传统方法在低资源下具有更好的性能,系统在连续语音识别任务中词错率(WER)下降了4.4个百分点,关键词检索任务中总体实际查询项权重代价(ATWV)提升0.0241。(2)提出一种基于表征共享迁移和训练数据扩展的低资源语音识别方法。低资源环境下,获取大量有标注训练音频数据十分困难,只能借用其他语言数据或挖掘可用的目标语言训练数据,作为训练数据的补充。本文根据DNN中的表征共享迁移的思想,使用多种其他语言数据训练SHL-MDNN网络,用它提取MBN特征应用于低资源语音识别。此外,本文还提出使用两种不同的策略挖掘可用的目标语言训练数据,实现数据扩展。音频数据扰动方法对现有数据集中的音频数据进行扰动处理,扰动音频与原标注文本在语义上仍保持一致,可以作为新数据加入训练数据集。半监督训练方法用ASR系统对方便获得的无标注语音数据进行识别,将识别结果作为这些数据的标注文本,一起加入训练集。本文通过实验验证了方法的有效性,应用了表征共享迁移和训练数据扩展的低资源语音识别系统WER相比基线系统下降3.8个百分点,总体ATWV提升0.0323。此外,本文还将LSTM-RNN声学建模方法与该方法结合起来综合分析了各种方法的性能,各方法综合使用时系统达到最佳性能,WER相对下降7.2个百分点,总体ATWV提升0.0582。(3)提出一种基于互补有限状态转换器(FST)的发音字典扩展方法。发音字典是语音识别系统的一个重要组成部分,字典资源匮乏词汇量不足将导致高集外词率,降低语音识别性能。本文提出一种自动扩展字典的新方法,该方法不需要大量文本数据来获取新词,而是利用单词发音恢复集外词。首先,利用字典FST表示的互补形式和P2G转换获取新的词-发音对。然后采用一种两步确认策略,即发音确认和单词确认,滤除错误词条。最后,采用语言模型线性内插将生成的新词添加进语言模型中。实验表明,本文字典扩展方法有效降低系统OOV率;英语的连续语音识别性能相对基线系统提升约9%,关键词检索性能约提升9.7%;捷克语系统性能分别提升了2.3%和10.0%。