基于双向循环神经网络的语音识别算法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:ws162282330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于传统语音识别算法识别耗时长且准确率低,该文提出了一种基于双向循环神经网络来进行语音识别的方法。循环神经网络能够进行记忆,是一种特殊的神经网络,它在NLP领域取得了很大的成功。相比于单向神经循环网络,双向循环神经网络在识别的正确率上有着更大的优势。实验证明,相比于单独的SGMM,DNN等语音识别算法,双向循环神经网络算法对语音识别的错误率更低,对语音识别的研究具有重大意义。
  关键词:语音识别;双向循环神经网络;深度神经网络;递归神经网络
  中图分类号:TP399 文献标识码:A
  文章编号:1009-3044(2020)10-0193-03
  语音识别是指通过信息技术将语音这一音频转化成文字。如今互联网急速发展,语音识别也是人工智能方面炙手可热的一个重要研究分支,在近些年来也在不断地进步发展。在现实应用的过程中,语音识别经常与翻译,交流,声控等实际应用相结合,提供一个通过语音实现人与机器之间的自由交互方法。
  1933年,西班牙的神经生物学家Rafael Lorente de N6发现了大脑皮层的解剖结构允许刺激在神经回路中循环传递,他因这一发现提出了反响回路假设。在此之后,美国学者JohnHopfield基于Little的神经数学模型使用二元节点提出了有结合存储能力的神经网络——Hopfield神经网络。接着MichaelI.Jordan基于Hopfield网络结合存储这一概念,在分布式并行处理的理论下建立了新的循环神经网络——Jordan网络。1991年,Sepp Hochreiter发现了循环神经网络有长期依赖这一问题,为解决这个问题,引入了大量优化理论,并且还衍生了很多改进后的算法,其中双向循环神经网络就是其中比较典型的一个。循环神经网络刚诞生就被用于语音识别这一功能上,但它的表现不佳。因此在二十世纪90年代的早期,有学者曾经尝试把SRN与其他的概率模型,如隐马尔可夫模型结合来提升其功能。双向循环神经网络提出后循环神经网络对自然语言的处理能力得到了显著提高。怛在20世纪90年代,由于当时的时代背景,基于循环神经网络的相关技术成果并没有得到大规模的推广被人使用。在进入21世纪以后,伴随深度学习方法的逐渐成熟与被人接受,对数据计算能力的显著提升与各中特征学习技术的不断出现,结构复杂但实用性很强的双向循环神经网络逐渐在自然语言处理的相关问题中崭露头角,并逐渐成为语音识别方面的一个重要算法。
  本文主要应用的是,以双向循环神经网络为核心,与动态规划,深度神经网络,快速傅里叶变换等算法相结合对语音进行识别。实验表明,采用以双向循环神经网络为核心的算法能够使语音识别的错误率更低,实用性更强。
  1基本理论
  1.1循环神经网络(RNN)
  循环神经网络是神经网络结构中的一种,它是类比于我们的认知而产生的一种观点。由于人的认知受过去的经历影响,循环神经网络和深度神经网络。卷积神经网络卷积神经网络不同的是:它不只考虑上一时刻的输入,而且赋予了网络对前面的内容的一种“记忆”功能。
  RNN的提出是由于研究发现一个序列在某一时刻的输出与之前的输出有不可分割的关系,所以叫作循环神经网络。其具体表现在网络会对之前的有关信息储存并将其应用于当前输出的相关计算中,简而言之就是隐藏层之间的节点是有连接的。
  1.2深度神经网络(DNN)
  神经网络技术诞生在20世纪50-60年代,在那时它叫感光机。它分为三部分:输入层,隐藏层,输出层。在输入层有已经转换成特征向量的输入信号,然后它会在隐藏层中经过处理,处理完后再傳人输出层,在输出层得到分类结果。但是因为它对比较复杂的函数处理起来较显无力,深度神经网络也就应运而生。在众多层中第一层是输入层,负责特征向量的输入,其他的除了最后一层,中间的若干层都是隐藏层,而最后一层是输出层。所以DNN也可以理解为是一种有许多隐藏层的神经网络。
  DNN值中,层层间都是连接的,每一层的每一个神经元都与和这一层相邻的层直接相连。深度神经网络看似非常复杂,但是以单元的角度来看其实也都是由若干个重复的部分组成的。
  DNN与大多数传统意义上的机器学习算法并不一样,它不需要人工干预就可以进行自动特征提取,在对没有标记的数据进行训练时,深层网络中的各个节点层抽取样本的输入来自动学习特征。深度神经网络处理和学习大量没有标记的数据的能力相比较于之前的其他各个算法还是有很显著的优势的。但与此同时,也有一定的缺陷,DNN在训练模型时相比于传统方法要耗费更长的时间,随之而来的成本也比传统方法更高。
  1.3梅尔频率倒谱系数(MFCC)
  为了让电脑识别我们的音频数据,我们首先要将音频数据从时域转到频域,这让才能够提取特征,而MFCC是语音识别中广泛使用的特征。
  对于一段音频文件我们将其分为很多帧,每帧经过快速傅里叶变换得到一个频谱,频谱能够反映信号频率与能量间的关系。在具体绘图时,我们对各谱线的振幅都做了对数计算,是为了使振幅较低的成分相对振幅较高的部分更加明显,这就是对数振幅谱,这类频谱图更便于观察在低振幅噪声中的周期信号。语音有比较常用的频率,也就是重要频率,我们称这样的频率形成的峰为共振峰,这类峰也可以看作一种辨识符号,通过它我们可以来区分声音,这也是我们要将其提取的原因。这样我们可以得到一段语音的频谱,但人的听觉只能听到少数频率的声音,对于很多频率的声音我们是听不到的。梅尔频率分析就是由于人在这一方面的特点而产生的,实验证明了人只能听见在坐标轴上并不连续的某些频率。并且不同频率密度不同。大致满足低频密集高频稀疏这一特点。MFCC通过这一点将我们日常中的音频转化成为特征向量,每一个向量就可以代替某一帧,作为其特征。
  1.4双向循环神经网络   由于普通的循环神经网络在很多方面有缺陷,因此提出了双向循环神经网络这一概念。因为很多具体的事情是需要结合未来的数据才能得到答案的,而单向循环神经网络只关心与过去的数据,它并不能实现这一效果。BRNN是又两个循环神经网络相反方向合并而成,并且这两个相反方向的单向循环神经网络都会和输出层直接相接触。所以为了结合未来数据增添了反向循环神经网络,两个方向的网络结合到一起形成BRNN在过去与未来共同基础下决定输出的治愈后答案,使我们最后得到的结果更加的准确。
  双向循环神经网络的具体结构由向前和向后层共同连接输出层。对于双向循环神经网络它的隐含层,向前推算跟单向的循环神经网络是一样的。对于任何一个时间t,它的输入會同时提供给两个方向相反的单向循环神经网络,输出也将由这两个单向循环神经网络共同来决定。这种共同决定的方式也注定着带来优势和劣势。优势是兼顾全局必定能使他做出正确决策的概率将会提高,而劣势则是每次输出他的判断其实会变得很复杂,相应的也会付出更多的时间与成本了。
  2实验过程及结果
  2.1实验过程
  本实验采用的公共数据集是清华大学中文语料库THCHS-30,这个数据集包含一个时长25小时共包含10000句子近20万词的训练集,一个时长2小时14分893个句子一万七千多词的开发集与一个6小时15分2495个句子近5万词的测试集。
  选择完数据集后,采用上文提到的流程进行语音识别,通过基于双向循环神经网络的语音识别方法对其进行训练和测试并得到实验结果。其实验流程具体如下图:
  2.2实验结果
  在具体的实验中,我们首先用快速傅里叶变换对所选的样本进行特征提取,接下来用双向循环神经网络对提取出来的MFCC特征数据进行训练和测试。
  由于单独的一个方法的错误率并不能体现我们的算法是否具有优势,所以为了确认这一点,所以我还同时分别做了以DNN和RNN为核心的算法对测试集来测试并进行对比。经过试验,得到了下表的错误率对比。
  通过观察由我们实际实验得到的结果表2,我们可以发现单向循环神经网络RNN的错误率是要低于比较传统的DNN的,这也体现循环神经网络在语音识别中是能起到一定的作用的。而且BRNN的错误率明显低于RNN的错误率,说明双向循环神经网络在语音识别中的准确性是要显著比单向循环神经网络要高的。这一点也体现了语音识别方面当前语音对应的文字跟之后的语音是有很大关系的,结合之后的语音可以很明显地提高语音识别的正确率。
  3结论
  本文采用基于双向循环神经网络的语音识别方法对模型进行训练。首先和传统的语音识别方法一样我们先用FFT辅助提取出MFCC并加以识别,识别得到一个特征向量将它转换为文字并输出。基于双向循环神经网络的语音识别方法在语音识别的精确度角度来看,在一定程度上提高了语音识别的准确率。但与此同时在实验中也发现了这个算法的一些缺陷,就是它在训练时间上显著要比传统算法与单向循环神经网络要长,这可能会造成在开发中需要更多的成本。但无论在测试还是在实际应用时都具有很好的表现,具有很大的应用价值。
其他文献
摘要:当前国家已进入加快利用大数据转型升级的全新阶段.大数据理念教学模式指充分利用各种信息渠道,有效汇聚、融合所有有关课程教学的大数据信息,便于教师开展各方向教学分析和研究,根据大数据不断调整教学进度、教学手段,实现良好的交互反馈,以达到教学价值的最大化。文中以计算机基础课程为例,阐述了大数据理念教学模式能更好地体现大学教育主旨,对高校提高授课效率、节约教学成本、提升学生自主学习能力及增强整体素质
摘要:为落实党中央、国务院和教育部关于做好“停课不停学”工作的部署,特殊时期为规避线下课堂教学带来的风险,为保证教学质量不降低,教育厅和学校希望教师能够根据自己的情况选择最便捷、有效的在线教学形式,尽可能减少特殊时期对正常教学的影响,同时也能进一步提升广大教师信息化课堂教学能力。  关键词:信息化;教学;资源  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2020)
摘要:教育信息化背景下响应“互联网 课程”号召,文章以“学习通”App应用于2017级公共事业管理专业必修课程管理文秘为基础,利用App辅助教学过程管理,为有限课堂教学提供更多辅导和支持,总结分析“学习通”App教学操作实践,反思完善辅助教学过程,为关益者信息化教学操作提供借鉴。  关键词:互联网 ;学习通;App;智慧教学;管理文秘  中图分类号:G642 文献标识码:A  文章编号:1009-
摘要:课堂派平台简单易上手,在职业院校的教学中逐渐盛行,在课堂派平台上展开OTO教学模式可以更好地提高教学效果,本文以江苏省联合职业技术学院院本教材《计算机应用基础》课程中《记“疫”演示文稿的制作》为例阐述基于“课堂派平台”OTO混合式教学模式的教学过程和思路,体现了课堂教学不受时空限制的优势,是对传统教学进一步改进补充的互联网式教学模式。  关键词:OTO教学模式;课堂派;高职院校  中图分类号
摘要:该文围绕数字媒体应用专业如何在教学中将专业课程与思政课程相互融合的课题,就依托“互联网 ”平台构建“课程思政”智能体系,通过明确教学目标推进“课程思政”智能体系的建设,丰富教育教学手段实现“课程思政”智能体系落地等内容进行了初步研究和论述。  关键词:互联网 ;课程思政;数字媒体  中图分类号:TP37 文献标识码:A  文章编号:1009-3044(2020)27-0126-01  开放科
摘要:根据高等中医药院校计算机课程的教学现状,该文探索将SPOC翻转课堂教学模式应用于《大学计算机基础》课程的实际教学中,利用校内网络教学平台,设计网络教学资源,以学生为本,提升学生团队协作能力和独立思考能力,教师将教学重点放在教学任务的设计和学习的激励指导,线上学习与线下交流讨论相融合,构建科学合理的多元化评价体系。  关键词:SPOC;翻转课堂;大学计算机基础  中图分类号:G642 文献标识
摘要:计算机技术是中职校中的重要学科之一,培养了大量的计算机应用人才,弥补了国家科技进步与信息化社会发展对计算机人才的需求。以往中职校的计算机教学以课堂教学为主,但由于新冠疫情的阻碍,很多中职校的计算机教学全部转变为线上教学。线上计算机教学不同于课堂教学,教师无法监督学生的学习情况。因此,提升计算机线上教学的趣味,激发学生的学习动力,是确保计算机线上教学效果的关键。本文将结合超星学习通线上教学平台
摘要:在当前信息化背景下,以SPOC理念为基础,同时结合网络教学平台,从线上线下两个方面对混合教学模式方案进行设计,增强了学生的学习兴趣,提升了教学效果。  关键词:信息化;SPOC;高职;混合教学模式  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2020)18-0166-01  开放科学(资源服务)标识码(OSID):  1 前言  当今,信息技术的快速发展影响了我们
摘要:大豆是我国重要的粮食和经济作物,对其种植情况进行监测是遥感技术的重要应用方向。通过遥感技术可以为农业部门及农民提供工作数据,为相关部门在种植方面的决策提供参考。目前,世界范围内的遥感地球观测系统(EOS)得到了日益完善的发展,并形成了多时相、多分辨率的EOS。遥感技术的快速发展,为我国大豆种植情况监测的深入应用奠定了坚实的技术基础。该文基于我国大豆种植情况监测以及遥感技术在农作物种植情况监测
摘要:高校青年教师教学能力直接决定了高校人才培养的质量。本文总结了作者参加第三届江苏省高校青年教师教学竞赛的心得体会,介绍了参赛教学课程单元的设计,给出了利用多媒体技术制作相关课件的案例,分析了高校教学竞赛的意义及存在的问题,针对未来教学竞赛提出了建议。  关键词:教学竞赛;高校青年教师;教学能力培养  中图分类号:G462.46 文獻标识码:A   文章编号:1009-3044(2020)34