论文部分内容阅读
经过几十年的研究,语音识别技术取得显著进步,在无噪声、朗读发音等特定条件下已经走向实用。然而,在面临低数据资源、噪声干扰、说话人方言口音差异和复杂信道等情况时,识别率会迅速下降,还不能满足应用要求。本文结合上述问题,主要针对说话人发音特征,研究基于深度神经网络语音识别声学模型的说话人自适应方法。论文的创新点和研究成果总结如下: 第一,改进了可适用于说话人自适应的i-vector特征提取方法。针对说话人发音差异问题,本文首先使用语音识别声学模型来生成通用背景模型,然后基于该鉴别式分类算法改进i-vector特征提取方法。与说话人识别技术中的标准算法相比,改进后的算法能更充分的挖掘说话人的信息,更加适用于语音识别说话人自适应。与此同时,为了支持搭建在线语音识别系统,本文还研究了在线的i-vector特征提取方法。 第二,将i-vector特征说话人自适应方法和fMLLR说话人自适应方法相结合,构建并实现了包括DNN声学建模和LSTM声学建模的两套说话人自适应语音识别系统。深度神经网络在语音识别领域取得了巨大的成功,因此本文详细研究了DNN和LSTM递归神经网络声学建模方法,并将基于fMLLR的DNN建模自适应系统作为基线系统。以此为基础,再结合改进的i-vector特征提出了融合两种自适应算法的建模方法。由于两种自适应算法具有一定的互补性,融合后的方法提升了语音识别系统对说话人信息进行建模的能力。 本文在越南语标准数据集上进行了细致的实验验证。实验结果表明,该说话人自适应方法在性能上表现出色,尤其是LSTM说话人自适应系统字节错误率相对基线系统降低11%,该系统与实验室在NIST OpenKWS15评测中取得公开条件第一名时的LSTM系统相比仍有性能提升。这充分体现了本文研究的有效性和前沿性,具有实用价值。