端到端语音识别技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:xiaogege0451
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术已经广泛应用于各类民用和军用领域,基于传统建模方法的语音识别技术相对成熟。近年来,随着端到端语音识别技术的提出与发展,语音识别系统逐渐克服了传统的模块化设计和独立性假设,模型具备了能够联合优化、易于部署等优点,并在很多识别任务中取得了最佳的识别结果,成为了极具发展前景的语音识别技术,是近年来语音识别领域的研究热点。当前的端到端语音识别模型主要依赖于深度学习技术,并利用一体化的神经网络进行建模,这导致了端到端语音识别存在三个突出问题。一是当前端到端语音识别对标注训练数据量的需求极大;二是数据驱动的模型机制存在很多优化空间;最后,端到端语音识别依赖于深度网络模型还会导致其缺乏可解释性。本文围绕端到端语音识别的这三个关键问题展开研究,具体工作主要体现在四个方面,分别为基于迁移学习的语音识别、基于主动学习和半监督训练的语音识别、对端到端模型的结构优化与训练优化、注意力模型的可解释性等研究。主要工作如下:1.基于迁移学习的端到端语音识别技术。基于数据驱动训练方式的端到端语音识别模型缺乏知识的引导,在训练数据量有限的语音识别任务中,因受制于特征表达能力有限、模型假设空间较多等因素,端到端语音识别性能不够理想。本文为此提出了一种基于迁移学习的端到端语音识别方法。首先在特征提取层面,提出了一种新的语音高层迁移特征提取方法。该方法基于数据增强的思想,通过多语言共享训练、迁移隐含层进行目标语言自适应训练,从而实现意大利语、德语、法语、西班牙语到英语的知识迁移,然后对权值矩阵进行凸非负矩阵分解(Convex Nonnegative Matrix Factorization,CNMF)来提取高层特征,使得特征具有更强的鲁棒性和高层语义表达能力。其次,基于高层特征,在建模层面进行迁移学习。基于非共享隐含层结构,提出两种联合建模方法,一种是连接时序分类(Connectionist Temporal Classification,CTC)-注意力联合模型,另一种是多CTC-多编码器层次注意力模型。通过迁移CTC算法对序列对齐的单调约束能力,以及共享不同分辨率模型之间的互补信息,达到减少建模假设空间的目的,从而在有限的训练数据条件下获得更好的模型性能。实验证明,本文所提出的迁移学习方法相比其他方法具有明显的优越性,且在TIMIT语料库中取得了最佳的端到端语音识别结果。2.基于主动学习和半监督训练的端到端语音识别技术。对语音数据进行标注通常较为耗时耗力,为了更高效的利用训练数据,降低模型对标注数据的依赖度,本文基于端到端注意力语音识别中的主动学习任务和半监督训练任务,提出一种新的语句评估算法——N-best信息密度(N-best Information Density,NID)算法。具体来说,首先在注意力模型中提出一种基于注意力的语句信息表示方法,基于该信息表示方法可以计算得到每条语句相对其他语句的平均距离,从而对决策时的语句信息密度进行评估。然后利用N-best解码概率,将语句的解码熵和基于注意力平均距离的信息密度相结合,计算语句的标注价值得分。在不同的主动学习和半监督训练实验中,均证明了NID算法相对其他算法的优越性,而对于扩展语句数量较多的任务,语句平均距离这一指标在决策得分中起到更大的作用。进一步对比不同算法的得分排序,证明NID算法有效引入了与其它算法互异的查询信息。3.端到端语音识别模型的结构优化与训练优化方法。端到端语音识别模型结构与训练算法在模型内部缺乏足够的约束条件,导致模型在训练时存在一定盲目性。本文重点针对注意力模型结构和训练的代价函数这两个方面展开研究。首先在结构优化方面,为了使得基于递归神经网络(Recurrent Neural Network,RNN)的注意力模型在计算注意力时引入更多长时信息与单调约束,提出一种融合多层编码器输出的注意力机制,在深度上对注意力机制进行扩展。使用连续多层输出乘积替代编码器的单层输出,进而计算注意力匹配得分,然后利用连续输出的残差连接机制计算注意力背景(Attention context)向量。进一步将多层注意力结构与多抽头机制结合,在广度上对注意力进行扩展。该方法基于多层输出的注意力构建多抽头结构,使得每个抽头在计算时均包含多层输出信息。其次,在训练优化方面,为了解决训练目标函数与测试评价指标的不一致的问题,同时也为了降低模型训练过拟合以及预测过置信的问题,本文将评价指标引入训练目标函数。提出了一种基于评价指标正则化的标签平滑训练算法。该算法将传统标签平滑算法中平滑项的常量系数替换为语音识别的测试评价指标,实现了自适应正则化标签平滑。从结构优化、训练优化、综合优化三方面展开实验,在TIMIT、WSJ和LibriSpeech三个语料库的实验结果表明,使用多层注意力机制显著优于使用传统注意力机制的识别率,且结合了多层与多抽头的注意力模型在识别率方面得到进一步提升。此外,无论是RNN注意力模型还是Transformer语音识别模型,训练优化算法相比普通训练方法以及传统的标签平滑训练方法在识别率方面有显著提升。最终的综合优化实验则在TIMIT、WSJ两个语料库中取得了当前最佳的端到端语音识别结果,在LibriSpeech语料库则取得最佳的RNN注意力模型语音识别结果。4.注意力语音识别模型的可解释性研究。基于注意力机制的模型是端到端语音识别技术中的重要建模方法,然而使用深度学习技术的注意力模型属于一种“黑盒(Black box)”模型,它的中间输出结果与训练过程缺乏足够的透明度与解释性。本文主要针对注意力语音识别模型,针对编码器的输出和训练动态规律展开两方面的解释性研究工作。首先给出一种注意力模型编码器输出的可视化方法,提出了一种基于注意力权重和先验知识的帧级强制对齐方法,结合t分布随机邻近嵌入(t-distributed Stochastic Neighbor Embedding,tSNE)降维算法对编码器的输出实现可视化;其次针对注意力模型的训练规律进行研究,将编码器带标注的t-SNE降维输出通过音素分段的方式进行不同模型之间的典型关联分析(Canonical Correlation Analysis,CCA),从而实现对音素级别的训练动态分析。实验对比了不同设置下模型的编码器可视化图,可视化图所展示的流形形状可以较好的展示出按照标注符号的顺序排列方式,并分析了不同模型输出与可视化图中符号分布的关系。实验进一步揭示了语音识别中不同类别音素在模型训练过程中的收敛性质,总结了收敛性质与相应识别率之间的关系。
其他文献
利用Pro/E软件对心直动滚子推杆盘形凸轮机构进行运动分析,得到了位移、速度和加速度的仿真结果,为后续的机构优化提供了一定的理论基础。
1978年出生于北京的黄越,大学毕业后,在一家世界500强企业工作,并通过努力做到了高管,攒下了殷实的家底。可他并不满足现状,决定辞职创业。2008年3月,黄越先后创办了乐乐淘以
案例教学法越来越受到国内高校的重视,并得到应用和发展,也为大学生心理健康教育提供了一种高效、操作性强的教学模式。本文重点从案例教学法的优势,组织、实施案例教学的方
王波大学毕业后进入一家汽车制造企业,工作不久就辞职开广告公司,不到两年就赚了几百万元。2010年,他又与人合伙创办杂志社,仅一年时间就倒闭,还欠下了400多万元的债务。
十八大以来国家的发展对协商民主实践的范围和形式提出了新的要求,地方治理的现实需求也对协商民主的实效性提出了挑战。不同地区结合自身的发展情况和治理需要相继推出了类
优化大学英语课堂氛围的重要前提是开展各项课堂交际活动。据分析,我国高校非英语专业学生的课堂交际意愿比国外的学生低很多。实际上,课堂交际意愿的高低取决于学生对自身语言
金融是国之重器,是现代经济的核心,它涉及到实体经济发展的各个领域。进入新时代,我国全面深化改革深入推进,金融经济正面临着前所未有的挑战,因此有效预防金融经济风险、实
在服务行业,经营者若懂得并擅长鼓励自己的企业、团队的所有人员真诚、积极、友善地接待每一个客人或客户,主动发现并满足客人或客户的需求这样的企业、团队不需要其它的“经营
如何实现就业增长与经济增长双赢是国家和政府高度重视的问题。作者从近年我国就业人口与国内生产总值的数据进行计量经济分析,国家和政府把就业和再就业工作纳入经济发展规
研究背景镉可导致神经发育毒性和肠道菌群紊乱,由于其极长的生物半衰期和较低的排泄率,研究低剂量镉污染对发育期的毒性具有重要意义。脑源性神经营养因子(BDNF)和血清素系统