基于RNN的藏语语言模型的研究与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:coretech333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及和信息的快速更新,人工智能已成为未来科技发展的重要方向。语音识别是人工智能研究的一个重要分支,其目的是让机器与人之间能够通过语音互相交流,实现人机交互。目前语音识别在英、汉等大语种方面已经取得了较高的识别率,而在藏语等小语种方面的研究却相对缺乏。语言模型是语音识别中的重要模块,也是语言事实关系的主要表现形式,很大程度上影响了语音识别系统的最终效果。除语音识别外,语言模型也广泛使用在机器翻译、自动分词、句法分析等研究中。本文主要研究基于循环神经网络Recurrent Neural Network,(RNN)语言模型和传统的N-gram统计语言模型,构建相关藏语语言模型并测试模型性能,通过改变参数,添加优化方法等实验对比两者困惑度,目的是得到识别性能更好的藏语语言模型,以便能够在后续藏语语音识别系统中,可以结合声学模型得到更准确的识别率。传统的N-gram语言模型是一种浅层模型,随着数据量增多、数据结构复杂性增强,会造成数据稀疏等问题,其建模能力也会下降。而循环神经网络RNN作为较深层次的模型,具有比N-gram模型更好的学习和建模能力。本研究通过改变RNN藏语语言模型隐层神经元的数目、在输出层添加类别层加速运算以及利用上下文词向量特征和LSTM进行训练,有效解决梯度消失等造成的标准语言模型不能获取长距离约束的问题。实验结果表明,优化后的藏语RNN语言模型性能优于传统N-gram语言模型,但是训练时间相对较长且过程复杂。
其他文献
在“水解溶出+UASB反应器”处理城镇有机垃圾的两相厌氧系统中,向UASB反应器进水中添加K、Mg、Fe、Co、Ni 5种金属离子的组合促进剂,通过对UASB反应器容积负荷、产气量、产甲
邕剧《玄奘西行》以玄奘于公元628年前往天竺那烂陀寺学习佛经到公元643年荣归的历史为故事,通过具体的场幕塑造了一位得道高僧的形象。该剧充满地方特色的邕剧唱腔,简单、干
<正>中美两国国有企业差异关于国有企业的规模、领域、地位和作用。美国国企规模很小,其经济活动占整个美国经济活动的比重仅为2%左右,其生产总值仅占美国GDP的5%左右,国企数
采用缺氧/好氧膜生物反应器处理高COD、高氨氮的味精废水.实验分两个阶段:第一个阶段保持污泥浓度为6000mg/L左右,HRT48h;向系统内投加Na2CO3调节碱度.运行结果显示COD的去除率在90%
随着&#39;全民阅读&#39;活动的不断深入,强化在校大学生阅读能力,及时梳理总结学校已践行的阅读指导方法,对营造&#39;书香校园&#39;及在校大学生获得自我发展能力,显得尤为重
<正> 非诉行政强制执行系指由行政机关作出的具体行政行为,负有履行义务的行政相对人在法定期限内既未提起诉讼又不履行的,作出具体行政行为的行政机关依法向人民法院申请强
不断爆发的国际金融危机,使商业银行越来越注重组织价值增加与风险加剧之间的平衡,也更加注重以增加组织价值为目标的内部审计工作的发展。然后,商业银行内部审计工作如何增
<正>粤港澳大湾区协同发展、互融互通,将有利于提升"莲花债"在离岸人民币债券市场的地位。在监管政策优化与创新的过程中,"莲花债"将积极助推大湾区发展建设。今年2月,中共中
近年来,我国经济得到了飞速的发展,市场经济体制在不断完善,企业在面临巨大机遇的同时也面临着较大的挑战,但就目前来说,企业的财务问题越来越突出,其在激烈的市场竞争中很难
初中阶段是人生心理发展的重要阶段。在这个阶段,初中生在学习、生活、人际交往、升学和自我意识等方面必然遇到各种各样的心理问题。如果不加以疏导,就不可能形成健康人格,