基于注意力机制的端到端语音识别技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 16次 | 上传用户：greenecho

【摘要】

：

端到端(End to End)的连续语音识别系统是目前语音识别的热门研究方向。该系统中,基于循环神经网络的序列到序列模型被用于建立输入语音特征序列与输出音素(或字素)序列的映

【作者】

：

龙星延

【出处】

：

战略支援部队信息工程大学

【发表日期】

：

2018年01期

【关键词】

：

语音识别注意力模型最少门单元对齐关系瓶颈特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

端到端(End to End)的连续语音识别系统是目前语音识别的热门研究方向。该系统中,基于循环神经网络的序列到序列模型被用于建立输入语音特征序列与输出音素(或字素)序列的映射关系。相比传统语音识别系统,该系统具有结构简洁、通用性强、不依赖语言学知识等优点。然而实验表明,端到端的语音识别系统的训练需要耗费更多的标注语料、计算资源和时间代价才能达到传统语音识别系统的性能员,因此调整模型结构和设计算法改进端到端语音识别系统是目前语音识别领域的研究热点。本文分别介绍基于连接时序序列分类算法和基于注意力机制的“编码-解码”模型(简称“注意力模型”)的端到端语音识别系统,并且在搭建基线系统基础上,围绕现有注意力模型存在的主要问题进行改进和创新,主要的工作和创新点如下:1.针对注意力模型参数规模庞大和训练过程中参数收敛速度慢的问题,将原有模型中循环神经网络使用的门循环单元(Gate Recurrent Unit,GRU)用最少门单元(Minimal Gate Unit,MGU)代替。MGU是通过简化在GRU的结构而得,具有与GRU相接近的时序建模能力并且含有更少参数。将模型中深层循环神经网络的基本单元替换后可以有效降低注意力模型的参数规模。实验结果表明,基于MGU的注意力模型相比原有模型在性能损失较小的情况下,能够有效降低训练时间。2.针对基于注意力模型的语音识别结果中音素与特征中的对齐不准确的问题,提出使用能自适应宽度的窗函数限定注意力范围方法,以及在计算系统特征的卷积神经网络中加入池化层。该方法首先,根据相近音素的实际发音长度估计窗口函数的宽度,缩小注意力的分布范围从而避免注意力分布在与当前音素不相关的特征区域;其次,计算系数特征的卷积神经网络,通过加入池化层能够降低网络输入的噪声干扰。实验结果表明,改进后模型识别结果中音素与特征的对齐准确度明显提升,系统的识别准确率也得到提高。3.针对注意力模型由于缺少有效初始化参数造成的识别准确低和训练迭代次数多的问题,提出一种结合瓶颈特征提取网络和注意力模型方法。该方法首先训练基于深度置信网络的瓶颈特征提取网络,并且将其被作为系统前端,为后端注意力模型提供区分性和鲁棒性更强的语音特征。其次,减少注意力模型中循环神经网络堆叠的层数,从而进一步降低迭代次数和参数规模。最后,改变瓶颈特征提取网络的输入和输出层规模并且对融合后的模型重新训练,提升系统的识别性能。进一步,提出采用基于连接时序分类算法作为目标函数训练瓶颈特征提取网络并且与注意力模型相结合,实现两种端到端模型相融合。实验结果表明,注意力模型在与瓶颈特征提取网络相结合后,识别准确率和训练速度均得到明显提升。

其他文献

未来我国对外资产负债的规模与结构探析

通过分析工业国家整体、发展中国家整体(不包括我国)以及我国在1970-2011年间对外资产负债的规模与结构,可以看出,资本账户开放政策会深刻影响一国对外资产负债的规模与结构

期刊

资本账户开放对外资产负债规模与结构

想起草业先驱孙醒东先生

在中国农学家传略上有这样一段导言：孙醒东(1897—1969)，农学家和农业教育家，中国大豆、牧草及绿肥作物研究的先驱者。他学识广博，对我国这三类作物的品种资源、分类、育种栽培和

期刊

绿肥作物牧草品种资源农学专业农学家大豆草业中国先生起草

在科技创新创业道路上努力创造出新业绩

4月29日,全省科学技术奖励大会在浙江省人民大会堂举行.省委书记、省人大常委会主任夏宝龙等为获奖单位和个人颁奖,省委副书记、省长李强讲话.省领导王辉忠、葛慧君、胡和平

期刊

生活垃圾混合基质在人工草坪栽培中的应用技术研究

为探寻生活垃圾合理开发利用的途径，将其与粉煤灰、锯末、稻壳按0．30：0．15：0．20：0．35容积配制成混合基质，进行人工草坪栽培，与对照（土壤栽培）比较，容量降低0．60g／cm^3；总孔度、毛管孔度、空气

期刊

生活垃圾混合基质人工草坪daily rubbish mixed base artificial lawn

对产业生态理论基本假设的国别检验

在本文中，笔者利用PWT7．1所提供的1950～2010年间189个国家和地区的人口数量、GDP总量和人均GDP数据，对它们的变化是否能够拟合生态理论中的种群增长模型进行经验检验。检验结果显

期刊

产业生态Logistic增长模型人口数量GDP总量人均GDP

急性胆囊炎实施优质护理对患者术后恢复的影响观察

目的探讨急性胆囊炎手术患者采取优质护理干预对术后恢复的影响。方法抽取我院2015年1月—2017年1月收治的60例急性胆囊炎手术患者,以随机数字表法分组,每组30例。对照组患者

期刊

急性胆囊炎优质护理术后恢复并发症满意度

浅谈初中思想政治课的复习方法

著名教育家孔子说过,学而时习之,温故而知新.为进一步提高初三学生复习的效果,本文作者结合教学的实践和体会,就备战中考作了认真的分析,希望广大教师借鉴和指导.

期刊

创新双基复习方法效果

芒市水稻精量穴直播技术应用分析

云南省芒市地处云南西部边陲,全市耕地面积64.65万亩。近几年来,在国家支农惠农农机购置补贴政策的支持下,芒市农业机械化得到了长足发展,农民购置和使用农业机械的热情高涨,

期刊

芒市农业机械化水平收获机械化支农惠农农机购置补贴政策西部边陲水稻机械化水稻种植

黄渠农机合作社的综合农事服务之路

黄陵县黄渠农机专业合作社位于陕西省延安市黄陵县白村,法人代表雷录民,成立于2013年7月,现有资产300万元,合作社成员140人,拥有大中型拖拉机93台套、果园开沟施肥机30台、植

期刊

农机专业合作社现有资产合作社成员农机合作社作业服务植保机械示范社大中型拖拉机

西南印度洋深海热液区铠甲虾初探

简述了深海热液区铠甲虾的分类研究现状,整理出铠甲虾总科下属科的形态分类检索表,并对2008年10月-2009年2月中国大洋科考第20航次在西南印度洋深海热液区获得的铠甲虾样品进

会议

基于注意力机制的端到端语音识别技术研究

与本文相关的学术论文