藏语拉萨方言语音识别的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:pie1011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是实现自然人机界面的必备技术,在语音搜索等方面的应用取得了很大成功。藏族是我国重要的组成部分,对藏语语音识别技术的研究,可有效地解决藏族与我国其他民族之间的语言障碍问题,促进民族之间的交流,增加相互认识与了解。藏语语音识别的研究也将有助于加快藏族居住区文化、经济以及科技等方面的更好发展,同样可以推动藏语的发展和进步。为了实现藏语拉萨话连续语音识别的研究,本论文分析了藏语拉萨话语言学方面的知识,建立了藏语拉萨话语料数据库。并分别建立基于传统的隐马尔可夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Networks,DNN)的藏语拉萨话声学模型。在藏语语言模型方面,利用藏文文本语料数据训练得到3-gram藏语语言模型。进一步利用端到端(End-to-End)语音识别技术,实现了藏语拉萨话端到端语音识别,实验结果表明具有良好的识别效果。本论文主要工作及创新如下:1.建立了藏语拉萨话语料数据库。其中藏语文本语料包含约18000句藏语文本。选择11位在校藏族同学进行录制藏语语音语料,其中藏族女同学为9位,藏族男同学2位。每位同学根据藏语文本进行独白,平均每句8个藏字,共计录制7584句藏语拉萨话语音,语音时长约12小时。2.建立了藏语拉萨话的HMM和DNN声学模型。分别建立了藏语拉萨话的HMM、DNN声学模型,在解码过程中,结合使用藏文文本语料训练得到的3-gram语言模型完成了藏语拉萨话非特定说话人的连续语音识别。实验结果表明,在测试集中藏字错误率最优达到27.64%。3.改进了传统的混合链接时序分类(Connectionist Temporal Classification,CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构,引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,实现了端到端的藏语拉萨话语音识别。实验中选择带投影层的双向长短时记忆网络(Bidirectional Long Short-Term Memory Projection,BLSTMP)作为编码器网络,采用混合CTC/Attention-based(CTC/Attention)的端到端架构进行网络的训练和解码,声学特征选取了80维的梅尔尺度滤波器组系数和基频共83维特征,实现了藏语拉萨话语音的端到端识别。实验结果表明,本论文实现的端到端的藏语语音识别具有较好的语音识别效果。
其他文献
社区是融洽社会不可分割的一部分,是大社会结构转化到人们之间的桥梁,但很长时间以来,国内有关社区的研究似乎停滞了,改革开放之后,随着经济发展,社会转型,社区服务乃至社区建设才重
教育信息化正从1.0走向2.0时代,基于新一代的云计算、大数据、人工智能等信息技术构建创新的教育模式,通过信息技术手段与教学、管理深度融合,构建教育数字大脑,建设一体化智
在SSL/TLS的协议设计中,除了CBC模式,RC4之外,近几年还发现了一些其他相关的漏洞。在K.Bhargavan团队的相关研究中,三次握手攻击,SLOTH攻击,降级弹性等都是有代表性的研究。同时,在发
如今,网络安全备受关注,已上升至国家层面。2016年11月7日,全国人大常委会表决通过《中华人民共和国网络安全法》,网络安全领域第一部基础性、框架性法律正式出台。在这部法
在氯体系pε-pH图上探讨了标准状态下pε和pH对天然水体中二氧化氯稳定性的影响.如水溶液中二氧化氯歧化为氯酸根的反应速率很低时,二氧化氯相对稳定,并与亚氯酸根、氯分子或
谦词以其在汉语词汇中所占的数量之多、含义之丰富成为对外汉语词汇教学中不可缺少的一部分,这类具有浓厚中华文化色彩的词丰富了对外汉语的词汇教学。本文从谦词的特点出发,
2016年日本通过实施《群体性消费者财产损害恢复民事诉讼程序特别法》正式确立了损害赔偿型消费者公益诉讼制度。为了使消费者既有损害得以恢复,日本对其设置了二阶段型的诉
介绍一幢平、立面均不规则的超限高层结构的抗震设计,并对控制结构的扭转效应和计算中部分构件超筋信息的处理作了研究;同时对型钢混凝土转换结构的设计作了详细论述,并重点介绍
医院健康教育与健康促进是医院工作的重要组成部分,医院健康教育以其独特的优势和条件受到广泛的关注。但是我国医院健康教育开展还有很大的不足,要推动医院健康教育进一步健
产品族是具有近似特征的产品系列,是现代企业利用有限的开发、制造和服务来经济地发展产品多样化的策略,产品基因是企业产品族产品的设计共性,体现了企业的品牌价值、设计理