论文部分内容阅读
语音识别系统作为智能人机交互技术的重要组成部分,在各个领域都有着广泛的应用需求。连续语音识别技术一般模型复杂,计算需求量大,终端识别困难,目前主要采用联网在线识别的方式,成本较高,时延较大。对于一些控制类终端设备来说,十几个到几百个关键的命令词就可以覆盖所有功能,在这种场景下命令词识别比连续语音识别更加合适。但目前的命令词识别系统存在着支持的命令词个数较少、识别率不高、系统复杂、识别延迟高、功耗大等问题,为了解决这些问题,论文设计了一种新型的基于深度学习的低延迟终端命令词识别系统,并完成了终端硬件平台的实现。针对命令词识别特征需要精简准确表达语音信息的问题,采用梅尔滤波器组输出特征作为识别系统的输入特征。论文详细分析了语音信号处理的过程以及深度学习网络输入特征的要求,通过将频率经过非线性映射到梅尔域构建的滤波器组对语音功率谱进行滤波操作,尽量的保留了低频有用信息,减少了高频冗余信息。实验证明该特征很好的表达了命令词的内容信息,同时降低了识别网络的计算量。针对命令词识别需要拟合音频帧与拼音标签关系的问题,采用长短时记忆(Long Short-Term Memory,LSTM)循环神经网络来对问题进行建模。论文详细的分析了深度前馈神经网络结构、卷积神经网络结构和循环神经网络结构,通过利用LSTM循环神经网络中的非线性激活函数、门控结构产生的历史状态以及网络的时间维度参数共享机制,提高了模型对于复杂语音分布的拟合能力,满足了可变长序列的处理需求,使模型可以随语音的录入逐帧处理以降低延迟。实验仿真结果表明模型对于测试集的识别有着很高的准确率,在硬件平台上的实验结果表明模型的识别延迟也非常低。针对深度学习识别模型输出的概率图转化识别结果的问题,提出了一种最大概率匹配置信度算法。算法利用概率图中的信息将每个词在这段语音中可能出现的最大概率计算出来,经过对比选择最大值对应的命令词作为结果,可以通过设置阈值与最大值对比来平衡准确率和误识率。该算法能够在对目标命令词进行准确识别的同时,很好的降低其它语音输入被错误识别为目标命令词的概率。为了验证设计好的命令词语音识别系统实际应用性能,论文结合STM32F407终端硬件平台设计了命令词识别系统的整体框图,针对终端硬件平台的特点对设计好的算法模块进行加速优化实现,并对部署到终端硬件平台的各个算法模块分别进行验证。验证结果表明系统可以在低计算资源的终端硬件平台上完整的运行。另外论文还对终端硬件平台录制的数据进行了测试实验,实验证明,基于深度学习的终端命令词识别系统在实际应用场景中有着很高的识别率和很低的延迟。