论文部分内容阅读
近年来,随着人工智能技术的快速发展,越来越多的语音交互产品和服务开始走进我们的生活,以更智能化的方式服务于千家万户。语音识别作为实现和改善智能人机交互的重要技术之一,在过去的几十年里一直都是研究热点。在深度学习兴起之前,混合高斯模型和隐马尔可夫模型一直作为非常有效的声学模型而被广泛使用,但是这种传统的语音识别系统由多个模块共同组成,在操作繁琐的同时也不便于整个模型的统一优化。在如今的大数据时代,这些传统的语音识别技术已经不足以支撑更加高效的语音识别系统和智能交互的需求,随着深度学习的发展,基于深度神经网络的端到端模型逐渐成为一种新的研究趋势。端到端技术将整个语音识别系统简化为一个单一的网络体系结构,以音频文件作为输入,并以文本标签作为输出,大大简化了语音识别系统的构建,同时也减少了传统模型组件间信息传递的损失,提高了模型的整体识别性能,逐渐成为语音识别领域的研究热点。本文对当前两种主流的端到端语音识别模型进行了分析,并针对其缺陷提出了融合语言模型的改进方法,论文的主要工作包括以下几点:(1)针对传统语音识别模型的不足,本文设计和实现了一个基于深度神经网络的端到端语音识别模型DCNN-BGRU-CTC,在模型设计上借鉴了在图像识别领域效果较好的VGGNet网络结构,采用二维卷积直接对语音频谱图进行特征提取,在一定程度上缓解了传统声学特征提取方法中过分依赖经验设计而造成特征信息部分丢失的情况。采用多个连续的小卷积核来代替较大的卷积核,在减少模型参数的同时也增加了CNN的表达能力,有利于提取更丰富、更具辨别能力的特征。最后在开源语音数据集上进行实验,并验证了模型的有效性。(2)针对汉字作为声学建模单元在端到端模型训练过程中收敛缓慢以及模型缺少语言建模能力的问题,本文提出在减小声学建模单元采用带音调的音节进行建模的同时增加了基于Transformer改进的语言模型进行联合解码,实验结果证明上述改进在单方面提高了声学模型和语言模型的识别效果。(3)为了改善语言模型无法融入声学模型的训练过程以及不能有效地整合语言模型进行联合优化的难点问题,本文提出了一种新的融合语言模型的端到端语音识别算法,使得语言模型能参与到声学模型的训练和测试阶段,该算法在一定程度上纠正了基于CTC语音识别系统产生的错误,将CTC的输出做某种矩阵运算之后作为输入再对语言模型进行训练,真正意义上实现了端到端。(4)为了简化后续处理工作以及便于他人使用,将本文提出的融合语言模型的端到端语音识别算法进行了流程化实现,构建了基于Django框架的Web站点,该网站能够完成语音文件的离线和在线识别,同时也检验了本文所提算法的实用性。