论文部分内容阅读
随着“中国制造2025”的提出以及人工智能技术的发展,越来越多的服务机器人进入人们的生活和日常生产中,扮演着极其重要的角色。在服务机器人相关的技术中,语音识别技术也成为重要的关键技术之一。近年来,深度学习被应用到语音识别技术中成为当前研究热点。本文面向语音控制的服务机器人应用,首先对语音降噪方法进行了研究与改进,其次对基于连结时序分类的端到端语音识别模型展开深入研究和改进,最后构建并实现了一个语音控制的服务机器人系统,并在真实语音环境下验证了系统的可行性和实用性。首先,在真实语音环境中,信噪比会下降,因此传统的谱减法和维纳滤波法的降噪效果会变差,导致出现噪声残留及语音失真的问题,本文提出了一种基于自编码生成对抗网络的语音降噪方法,该方法将真实带噪语音通过该网络中的生成器,利用该网络中的判别器和生成器相互协助,直至生成器生成出去噪语音。实验结果表明,本文提出的基于自编码生成对抗网络的语音降噪方法能够有效提高真实语音环境下的性能,生成出的去噪语音具有更好的语音质量和可懂度。其次,选择深度卷积神经网络模型(Deep Convolutional Neural Networks,DCNN)作为研究对象,该模型以堆叠CNN为主,随着网络层数的增加,模型会发生梯度消失和网络性能的退化问题。针对以上问题,本文提出一种改进的残差双向循环网络模型(Residual Networks-Bidirectional Long Short Term Memory,Res Net-BLSTM),该模型将语谱图特征作为输入,引入残差网络和双向循环神经网络,使得模型能够学习语音的上下文信息。实验结果表明,该模型在中文实验中与DCNN模型比较,词错率降低2.52%,且系统泛化能力更强,鲁棒性更好。最后,本文在Jetson Nano上搭建了一个实际的语音控制服务机器人系统,并在真实语音环境中,测试服务机器人完成相应语音指令的识别率,证明了该系统的可行性和实用性。