基于循环神经网络的藏语语言模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:lovesnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,循环神经网络语言模型(RNNLM)在很多语音、自然语言处理相关领域表现出了很好的性能,从而超过了传统的N元语法模型(Ngram)成为主流的语言模型建模方法。但目前对于藏语来说,研究条件的限制和训练数据的匮乏,给藏语RNNLM的研究造成了诸多困难,使得N-gram语言模型仍然占据主要位置。本研究主要从模型训练技巧和藏语特性探究两个方面出发,来解决藏语RNNLM训练数据匮乏的问题。分别提出了插值语言模型、使用领域自适应的循环神经网络语言模型以及结合藏文部件的循环神经网络语言模型。同时,为了验证提出的方法的有效性,本研究中不仅使用困惑度(perplexity,简写为PPL)来评价语言模型,还搭建了完整的语音识别系统,并使用将语言模型应用于语音识别中后得到的字级别识别结果作为评价指标。实验中包括两个训练数据,大小分别为150万字和2130万字,测试集共有12.6万字。实验结果表明,和传统的3-gram语言模型相比,使用插值语言模型PPL相对降低了16.1%,字错误率(CER)相对降低了6.3%;使用领域自适应的语言模型PPL相对降低了34.2%。和标准的RNN语言模型相比,结合藏语部件的RNN语言模型取得了13.5%的相对PPL降低。该研究解决了训练藏语循环神经网络面临的数据匮乏问题,从而提高了藏语语言模型的性能。
其他文献
随着机动车及驾驶员数量的增加,公安车管业务量越来越大。车管所"黄牛"多属于非法中介,采取欺诈、蒙骗等手段代办车驾管业务,从中非法牟利。本文从这一现象产生原因入手,分析
目的研究慢性咽炎病因病机特点及治疗方法。方法对我科2009年11月至2010年11月诊断为慢性咽炎的132例患者的临床资料进行分析比较。结果慢性咽炎患者中,正常菌群生长105例,36
目的探讨中西医结合治疗糖尿病肾病的疗效。方法 80例患者随机分为中西医结合治疗组合对照组,中西医结合治疗组在常规降血糖、降血压的基础上,根据中医辨证给予活血化瘀、利
背景:乳腺癌死亡率在女性恶性肿瘤死亡率中居第一位,而转移是导致乳腺癌患者死亡的最主要原因。发生远处转移的乳腺癌患者其5年生存率仅为23%。因此,进一步探索乳腺癌发生侵
<正>中学生大多处于青少年时期,此时学生应该养成良好的体育养生习惯、生活方式及生活态度,这将影响人一生的身体健康和事业发展,现就青少年之体育养生报告如下。1培养健康的
目的观察傍针刺法对坐骨结节滑囊炎的疗效。方法 25例坐骨结节滑囊炎患者采用傍针刺法治疗。结果临床愈7例,好转15例,无效3例,有效率88.0%。结论傍针刺法治疗坐骨结节滑囊炎
现代网络信息技术为当前高校思想政治教育教学带来了巨大的挑战和机遇,以形势与政策为代表的高校思想政治理论课与网络信息技术相结合是信息时代的要求、是高校思想政治教育
现代教育技术实现了思想政治理论课教学要素、教学理念、教学方式的变革,提高了思想政治理论课的教学效果,对增强课堂吸引力、扩大教学规模、培养创新型人才具有重要意义。通
随着经济的持续高速发展,路段交通量增长迅猛,诸多早期建成的双向四车道高速公路逐渐出现严重交通拥堵现象,陆续扩建为以双向八车道为主的多车道高速公路,因交通量中各种车型
前年是作曲家马勒(Gustav Mahler,1860—1911)诞生一百五十周年,去年是他逝世一百周年,世界各地都会有纪念活动及大量的音乐会,掀起新一波“马勒热”。在香港,香港管弦乐团在
期刊