基于自适应学习和多尺度前向注意力的语音识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jingqihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种能够将人类声音转化为文字的有效方法,语音识别(Automatic Speech Recognition,ASR)凭借自身的优势已在多个领域成为主要的技术手段。目前,基于端到端的深度学习(Deep Learning)方法被广泛的应用到ASR中,其中比较常用的有连接时序分类(Connectionist Temporal Classification,CTC)模型和拥有编解码结构的注意力(Attention)模型。这两种模型完全摆脱了传统方法的强制对齐,模型优化更直接且有更强的通用性。与CTC相比,注意力模型不需要帧的独立性假设,因而其性能更好。然而,由于注意力模型刚刚出现不久,因此对其广泛深入的研究还不够充分。为此,本文从如下两个方面对注意力模型展开研究:(1)考虑到基于注意力机制的语音识别系统网络结构比较复杂,当采用梯度下降算法进行反向传播时,会出现编码器更新能力较弱的问题。因此,针对编码器部分进行改进,通过在编码器后再加入新的CTC损失与注意力损失进行结合,形成基于多任务的学习。在多任务学习中,CTC和注意力两个任务的重要程度并不一致,因此在大规模语料库中通过手动调参确定这两个任务的系数非常耗时且低效。为解决该问题,试图在多任务学习基础上引入自适应算法,利用Sigmoid函数对CTC和注意力损失进行学习,使得每一个时刻自动产生不同的系数。实验表明,这种自适应算法能减少模型训练时间,提高识别性能。(2)由于传统的注意力模型在计算注意力得分时,可能会存在异常值的问题,为此提出前向注意力模型,其采用前向算法,利用上一时刻正常的注意力得分来平滑当前时刻可能存在异常的注意力值。考虑到上一时刻每一帧的注意力得分影响程度不同,在前向注意力模型上加入约束进一步优化,利用神经网络计算约束因子,以达到自适应平滑的目的。同时,传统的注意力模型还存在单一卷积窗对模型的建模能力不足的问题,虽然多头注意力机制缓解了该问题,但其采用单一尺寸的卷积滤波器,只能得到固定时长的语音变化模式。为此,试图在多头注意力模型的基础上,提出多尺度注意力模型,其每个头采用不同尺寸的卷积滤波器,来对不同等级的语音基元建模。紧接着,还将前向注意力模型与多尺度注意力模型结合,提出多尺度前向注意力模型。实验表明,该模型相比于基线系统的识别性能有大幅度提升。
其他文献
伴随着大数据时代的到来,卷积神经网络逐渐的替代了传统的识别方法,为了获得更强的特征,实现更高的精度,网络也从2D发展至3D。网络的结构变得日渐复杂,对硬件的计算能力要求
人体目标跟踪是计算机视觉的重要研究方向,广泛应用于智能视频监控、智能交通系统、机器人、自动驾驶等领域,具有极高的研究价值。计算机视觉领域的深度学习方法,具有自主学
近年来,与由树脂、微米级填料和助剂组成的传统涂料相比,纳米复合涂料可以更有效结合无机填料的刚性和有机相的韧性,或者赋予涂料由纳米效应或协同效应产生的新功能。但如何
近年来,国家以及西安市都先后出台了一系列文件,大力推广具有节能环保、节约劳动力以及质量性能稳定的装配式住宅的开发建设,但是装配式住宅在国内以及西安市推广缓慢。针对
无线传感器网络由众多分布在监测区域内的传感器节点组成,主要功能是实现监测区域内数据采集和传输。无线传感器网络中由于节点受到自身能量的限制,增加了节点数据传输过程中
人口问题在各个国家乃至整个世界的政治、经济、文化中都扮演着重要的角色,而生育问题对国家乃至世界的发展都具有重大影响。而辽宁省的人口老龄化受人口惯性和周期效应的影
编码缓存(Coded Caching)是2014年提出的一种基于网络编码(Network Coding)的缓存配置和发送方案。其通过对用户缓存的数据进行设计,然后根据用户的需求来决定发送的数据,将
西南地区交通线路尤其隧道工程的大量建设,很大程度上受复杂地质环境和岩溶水文地质条件制约,在工程建设中常发生隧道涌突水灾害事故。目前,隧道涌水量预测有多种方法,其中解
当前,我国城镇企业职工养老保险的发展面临诸多困境,转轨成本、统筹层次等问题导致了较大的基金收支平衡压力,而随着人口老龄化程度的加深和制度赡养率的提高,未来城镇企业职
当今时代,在经济全球化的趋势下,海上交通已经越来越引起人们的重视,世界各国都加大了对海洋装备的研究力度,力求在军事,航运和科学探索上掌握主动权。海洋水面船舶(Marine S