论文部分内容阅读
语音是人类之间最自然、最便捷、最有效的沟通交流方式,是人类的显著特征之一。语音识别技术可以将语音转换成相应的文本,是人类与机器进行交互的关键环节,更是实现人工智能技术的基本步骤之一。随着深度学习技术的发展,语音识别领域取得了重大进展,基于深度神经网络的语音识别方法逐渐取代了传统的高斯混合模型-隐马尔可夫模型结构,成为当下主流的语音识别框架。研究者们对深度学习方法(以深度神经网络为主)在语音识别领域的应用展开了大规模的研究,然而大多数研究都是以单任务为主,即将语音识别与其他相关的语音任务(如说话人识别、语种识别等)分开对待,这与人类大脑协同处理语音信号的方式并不一致。鉴于语音相关任务之间的协同学习研究不足或欠缺,本文提出了基于多任务学习的深度协同学习框架,并针对该框架相关的部分深度学习问题进行了研究。 首先,本文从人类大脑处理语音信号的方式中受到启发,提出了基于多任务学习的深度协同学习框架。类似于人类大脑可以协同处理语音中包含的语言内容和说话人特性等信息,深度协同学习框架可以将语音相关任务如语音识别和说话人识别等,融入到一个统一的模型中,并进行协同学习。该框架中各任务的协同关系既体现在模型的训练阶段,也体现在使用模型进行推断的过程中。该框架的协同学习是基于循环神经网络实现的,具体通过在各任务之间引入循环连接来达到信息交互的目的,实现各任务之间的相互交流和促进,并以语音识别和说话人识别两个任务为例,进行了系统的实验(既包括全协同学习,即每个训练样本可以用于所有任务的学习,也包括偏协同学习,即每个训练样本只可以用于其中某一个任务的学习),验证了深度协同学习框架的有效性和合理性。 其次,考虑到复杂模型普遍具有训练困难的问题,比如循环神经网络的训练常常会出现梯度爆炸或梯度消失的情况,而深度协同学习框架是基于循环神经网络的,其应用必将受到限制,为此,本文提出了基于暗知识迁移的深度学习模型预训练方法,该方法通过将教师模型的知识迁移给学生模型来达到预训练的作用,其中教师模型的复杂度可以低于学生模型。与传统的逐层预训练方法(如深度信念网络训练)相比,该方法可以使用较为平滑的目标函数对整个网络进行有监督预训练,大大提高了训练效率,并且不受限于具体的网络结构,适宜于任何复杂的网络模型。本文以循环神经网络为例,使用相对较弱的前馈全连接网络作为教师模型,证明了该方法的有效性及其相对于传统逐层预训练方法的优势,且该方法与后者的结合能进一步提高模型性能。 再者,考虑到深度学习方法在语音识别中的成功应用,特别是用以实现深度协同学习框架的循环神经网络具有极强的语音时序建模能力,而模型的内部工作机制并不清晰,本文通过可视化技术对其进行了较为直观的理解,具体以两类门控循环神经网络为例,即长短时记忆单元(文中实现深度协同学习框架的基本结构)和门控循环单元,研究和对比了二者的记忆细胞激活模式、记忆轨迹、记忆鲁棒性以及细胞分化情况,并根据这些可视化结果,对门控循环神经网络进行了改进,使得模型性能得以提升,也使得模型的可视化理解更加容易。 最后,本文针对多语种场景,通过其中的多组任务,进一步验证了深度协同学习框架的有效性及其在多语种场景中的应用潜力。具体的应用包括语音识别与语种识别、说话人识别与语种识别之间的协同学习,实验结果证明了音素信息与语种信息、说话人信息与语种信息之间的相互促进作用,且以音素信息为例,系统地分析了其对语种识别任务的影响,并对深度协同学习框架进行拓展,提出了基于音素信息的时序神经网络结构,其在语种识别任务中的性能表现极为显著。