论文部分内容阅读
随着深度学习的发展,深度神经网络(Deep Neural Network,DNN)与循环神经网络(Recurrent Neural Networks,RNN)已被成功应用于英文语音识别和语音关键词检出系统。本文主要研究了分别用深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)和带有长短时记忆单元的循环神经网络(Long Short Term Memory RNN,LSTM-RNN)对中文声韵母进行声学建模,从而优化现有中文语音关键词检出系统性能。本文首先介绍了连续语音识别的框架与原理,包括语音信号的特征提取、语音信号声学建模技术、发音字典和语言模型以及基于加权有限状态转换器的语音解码网络。其中语音信号特征提取包括感知线性预测系数、梅尔频率倒谱系数、滤波器组特征、基频特征四种声学特征。其次研究了基于连续语音识别器的语音关键词检出技术,包括基于网格结构建立索引、关键词搜索方法、关键词确认置信度以及语音关键词检出系统的评价指标。本文还研究了一种中文语音关键词检出系统,此系统采用高识别率的声韵母进行声学建模和检索,通过查表法将输入汉字字符形式的关键字转化为声韵母进行关键词检出。本文分别训练基于DNN-HMM的声学模型和基于LSTM-RNN的声学模型,搭建中文语音关键词检出系统,各得到了73.32%和79.84%的召回率,说明使用LSTM-RNN声学建模可以优化语音关键词检出系统性能。之后为搭建的中文语音关键词检出系统选取不同声学特征进行性能分析,结果表明基频特征可以一定程度上提高检出性能;然后采用融合置信度优化中文语音关键词检出系统性能;其次,对比两个系统在不同规格训练数据下的性能,讨论了各自的应用范围;最后,提出了一种召回率更高的基于系统融合的中文语音关键词检出系统。