基于双向循环神经网络的藏语语音识别研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:lijichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机的出现,终端的应用便成为了当今技术的发展潮流。苹果公司在智能手机里引入了语音识别的技术,掀起了人机交互的热潮。在人们的互相沟通中语音是最直接最方便的交流方式,比起鼠标,键盘这些设备,语音是最快捷也是最受欢迎的输入方法。由于传统的语音识别模型对非特定人和复杂多变的语音不能够很好识别和目前语音识别方面对藏语的研究较少,所以本文的研究是基于双向循环神经网络的藏语语音识别研究,双向循环神经网络倾向处理序列性数据,利用双向循环神经网络进行藏语语音识别,可以提高语音的稳定性和准确率。本文的研究内容如下:1)语音获取。从语料库中截取一段音频作为输入,输入到语音系统中。2)预处理。语音信号的预处理操作分别是预加重,分帧,加窗,预处理首先要对语音进行抗混叠滤波的处理,这是因为人们本身也会对语音造成影响,这个操作是尽可能的降低频率折叠导致虚假频率的成分;其次,人们说话时会产生口唇辐射,通过进行预加重,提高高频分辨率;语音信号的特点是短时平稳,所以预加重后面要进行分帧加窗。预处理操作能够进一步提高语音识别的识别率。3)特征提取。现在能够选用的提取方式可选范围较大,此次研究围绕的提取方式是基于快速傅立叶变换(FFT)分析基础上的Mel频率倒谱系数。4)双向循环神经网络。双向循环神经网络在时间序列上关联性较强,优势是处理序列数据问题,使用基于双向循环神经网络的藏语语音识别具有较好的结果。将链接时序分类算法与双向循环神经网络相结合,可以解决语音片段和标签文本对齐问题。实验效果:本实验通过设置批处理大小,学习率,节点数量以及迭代次数四个参数形成实验对比,从实验中可以总结出当批处理大小是16,隐含层节点的数目是256,学习率为0.001,和迭代的次数是15时曲线相对平稳,易于收敛,性能相对稳定,系统的识别率是最高的。
其他文献
总结25例PICC继发奇静脉异位的护理经验。当左侧PICC置管出现导管功能障碍,在排除其他原因后,怀疑异位至奇静脉时,通过胸部侧位片或胸部CT来确诊。及时处理继发奇静脉异位,复
马燕红,1964年出生于中国北京,著名体操运动员。她在1978年-1982年参加的第8届亚运会、第20届、第21届世锦赛、第6届世界杯赛等一系列重大体操赛事中多次获得高低杠和平衡木
乡村振兴是近年来国家大力推进的一个工程,其目的在于推动农村社会经济文化基础设施的全面发展,提高农民经济收入和生活水平,提高农村经济发展质量,为我国整体发展带来强大的
目的探讨基层医务人员对分级诊疗制度的认知、态度及影响分级诊疗制度实施的因素,为进一步完善分级诊疗制度的实施提供科学依据。方法采用自行问卷设计,整群抽样,对武汉市武
随着我国医药事业的不断发展,中药在治疗疾病和养生保健方面得到广泛应用的同时,其毒副作用也逐渐被人们所重视。肝脏作为药物代谢的重要场所,同时也是毒性反映的主要靶器官,
何谓“马克思主义中国化”?简言之,就是马克思主义的基本原理与中国实际相结合.何谓“相结合”?用毛泽东的话来说,就是“思想必须反映客观实际,并且在客观实践中得到检验”.
随着中国经济的增长,投资合作不断增加,然而资源短缺、生态破坏也对经济的发展产生严重影响。绿色供应链背景下“一带一路”的战略实施,各类基础设施、船舶修造、港口修建和
地震数据在油气勘探、地质勘探领域发挥着至关重要的作用.精确详细的地震数据有助于对油气勘探做出精确指导,减小勘探的风险,从而产生巨大的社会效益和经济效益.在提升地震数
人力资源对企业的重要性不言而喻,作为企业第一竞争力的人才可以帮助企业掌握竞争的主动权,使得企业在激烈的科技和经济竞争中占据有利的地位,因而人才的留存正在成为影响企业发展的关键因素。近年来,针对此问题的研究者,提出了许多改进方案提升人才留存率,但最根本的还在于企业制定的激励措施是否适合本企业的环境,能否满足人才的发展需要,因此对企业的激励措施加以研究,以保证激励措施的时效性和适用性,使他们发挥应有的
<正>根据教育部《关于全面深化课程改革落实立德树人根本任务的意见》和《完善中华优秀传统文化教育指导纲要》的要求,近年来,各地中小学都纷纷进行了传统文化进课堂的尝试。