语音识别中的深度协同学习方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:syris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类之间最自然、最便捷、最有效的沟通交流方式,是人类的显著特征之一。语音识别技术可以将语音转换成相应的文本,是人类与机器进行交互的关键环节,更是实现人工智能技术的基本步骤之一。随着深度学习技术的发展,语音识别领域取得了重大进展,基于深度神经网络的语音识别方法逐渐取代了传统的高斯混合模型-隐马尔可夫模型结构,成为当下主流的语音识别框架。研究者们对深度学习方法(以深度神经网络为主)在语音识别领域的应用展开了大规模的研究,然而大多数研究都是以单任务为主,即将语音识别与其他相关的语音任务(如说话人识别、语种识别等)分开对待,这与人类大脑协同处理语音信号的方式并不一致。鉴于语音相关任务之间的协同学习研究不足或欠缺,本文提出了基于多任务学习的深度协同学习框架,并针对该框架相关的部分深度学习问题进行了研究。  首先,本文从人类大脑处理语音信号的方式中受到启发,提出了基于多任务学习的深度协同学习框架。类似于人类大脑可以协同处理语音中包含的语言内容和说话人特性等信息,深度协同学习框架可以将语音相关任务如语音识别和说话人识别等,融入到一个统一的模型中,并进行协同学习。该框架中各任务的协同关系既体现在模型的训练阶段,也体现在使用模型进行推断的过程中。该框架的协同学习是基于循环神经网络实现的,具体通过在各任务之间引入循环连接来达到信息交互的目的,实现各任务之间的相互交流和促进,并以语音识别和说话人识别两个任务为例,进行了系统的实验(既包括全协同学习,即每个训练样本可以用于所有任务的学习,也包括偏协同学习,即每个训练样本只可以用于其中某一个任务的学习),验证了深度协同学习框架的有效性和合理性。  其次,考虑到复杂模型普遍具有训练困难的问题,比如循环神经网络的训练常常会出现梯度爆炸或梯度消失的情况,而深度协同学习框架是基于循环神经网络的,其应用必将受到限制,为此,本文提出了基于暗知识迁移的深度学习模型预训练方法,该方法通过将教师模型的知识迁移给学生模型来达到预训练的作用,其中教师模型的复杂度可以低于学生模型。与传统的逐层预训练方法(如深度信念网络训练)相比,该方法可以使用较为平滑的目标函数对整个网络进行有监督预训练,大大提高了训练效率,并且不受限于具体的网络结构,适宜于任何复杂的网络模型。本文以循环神经网络为例,使用相对较弱的前馈全连接网络作为教师模型,证明了该方法的有效性及其相对于传统逐层预训练方法的优势,且该方法与后者的结合能进一步提高模型性能。  再者,考虑到深度学习方法在语音识别中的成功应用,特别是用以实现深度协同学习框架的循环神经网络具有极强的语音时序建模能力,而模型的内部工作机制并不清晰,本文通过可视化技术对其进行了较为直观的理解,具体以两类门控循环神经网络为例,即长短时记忆单元(文中实现深度协同学习框架的基本结构)和门控循环单元,研究和对比了二者的记忆细胞激活模式、记忆轨迹、记忆鲁棒性以及细胞分化情况,并根据这些可视化结果,对门控循环神经网络进行了改进,使得模型性能得以提升,也使得模型的可视化理解更加容易。  最后,本文针对多语种场景,通过其中的多组任务,进一步验证了深度协同学习框架的有效性及其在多语种场景中的应用潜力。具体的应用包括语音识别与语种识别、说话人识别与语种识别之间的协同学习,实验结果证明了音素信息与语种信息、说话人信息与语种信息之间的相互促进作用,且以音素信息为例,系统地分析了其对语种识别任务的影响,并对深度协同学习框架进行拓展,提出了基于音素信息的时序神经网络结构,其在语种识别任务中的性能表现极为显著。
其他文献
算法作为计算机软件的核心,其可靠性和开发效率对于软件的可信性及应用发展具有重要意义。算法自动化是提高算法开发效率、保证算法可靠性的重要途径之一。置换和查找是计算
形式化软件规约技术便于软件系统原型、分析、验证与最终的实现,是保证软件质量和提高软件生产率非常有用和重要的手段。但是形式化规约的获取是一项相当困难的任务,因此通过自
指令集架构(ISA)是计算机软硬件设计的接口。相对稳定的ISA为软件开发者提供了固定的使用计算机硬件资源的接口,促进了软件产品的高效开发。然而,一方面软件开发者常发现移植传
近年来随着研究和应用的深入,无线传感器网络(Wireless Sensor Network,WSN)的性能测量逐渐成为研究的热点。通过测量可以发现网络中的故障或异常,从而为早期系统预警、节点再次
随着计算机视觉技术的发展,利用数字图像处理技术来进行农作物病虫害诊断得到了人们的关注。而图像分割作为数字图像处理领域中最为基础和重要的问题,一直是困扰着学者们的一
学位
随着网络的普及和深入应用,人们希望利用互联网上的丰富信息资源在线创建满足其个性化需求的增值型互联网情景应用(Situational Applications)。研究如何构造互联网情景应用的
随着互联网技术应用的普及与推广,其用户数量急剧增长,应用形式层出不穷,网络的安全问题愈发严重,安全防御手段缺乏统一性和主动性的缺点也凸显出来。本文以网络安全风险管理
近年来,随着分布式数据库的应用越来越广泛,分布式数据库查询优化方法的研究一度成为分布式数据库领域的研究热点。然而其中的多连接查询优化问题却一直都没有得到很好的解决
汽车发动机的工作状况直接影响汽车的动力性、可靠性以及安全性。现有的汽车发动机综合故障诊断技术依赖于多种传感系统和专家的先验知识,不利于在车载系统上使用。因此,探索
软件技术发展至今已产生大量的方法和模型,但任何检验、验证手段都还不能发现并排除所有的软件缺陷。从第一个软件诞生,就伴随出现软件缺陷的检测和预测技术。检测技术在于发现