基于深度学习的藏语安多方言语音识别的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:ahphone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类发展的历史长河中,语音作为人类交流必不可少的一部分,一直是国内外学者研究的重点课题。如何让计算机与人类通过“语言”交流更是热门的研究对象。随着Siri等许多语音识别软件的出现和智能家居的兴起,智能语音处理的应用逐渐走进人们的生活,并持续地扮演重要角色。在这个大数据的时代,拥有着对数据建模超能力的深度学习算法,已经被普及于语音识别、图像处理等模式识别领域。目前,语音识别技术针对英语、日语、德语、中文等主流国际语言识别正确率高达99%以上。但是针对像藏语这样的民族方言研究仍处在很浅显的阶段。因此,本文主要研究提高深度学习在藏语安多方言连续语音识别上的效果。本文主要工作如下:1.建立了一个用于藏语安多方言语音识别的大规模语音语料库。我们选取了10000个藏语常用句子来构建藏语安多方言语料库。我们筛选了以藏语安多方言为母语的5位男性说话人和5位女性说话人,每人录制1000句语音,一共录制的语料库时长为15.6小时。再根据发音词典对文本语料进行标注,并将语料按照3:1的比例分别组成训练集和测试集。2.实现了基于深度神经网络(Deep Neural Networks,DNN)和隐马尔科夫模型(Hidden Markov Model,HMM)的藏语安多方言语音识别。我们首先对原始语音进行预处理、提取特征等操作,接下来利用相应的文本训练语言模型。然后利用训练集的语料进行大量训练,生成声学模型。最后将测试集语料输入模型,通过解码识别出词序列,字错率为28.3%。3.实现了基于混合端到端藏语安多方言语音识别。本文分别搭建了基于连接时态分类(connectionist temporal classification,CTC)和基于Attention架构的端到端藏语安多方言语音识别模型,并提出了一种基于混合CTC/Attention的方法来优化藏语安多方言语音识别的方法。通过调整系统的CTC所占权重参数来提高系统精确度,优化模型。当参数取0.2时,混合端到端模型的字错率最低,为31.5%。
其他文献
活性炭具有良好的吸附和催化性能,在污水处理、烟气净化等环保领域应用甚广,通过一般的炭化、活化方法生产出的活性炭均为粉状活性炭,使用、运输极为不便,容易造成粉尘污染,对其应
1病历介绍患者,女,45岁,因反复胸闷、气短、乏力3 a余,加重3 d于2005年2月21日入院.患者于3 a前无明显诱因出现胸闷、气短、乏力,活动后加重,曾到多家医院就诊,经做心电图、
据统计,我院2000-2003年,因农药中毒(包括有机磷农药中毒、有机氯农药中毒、有机氮农药中毒等)而进行救治的患者有122例,其中有机磷农药中毒的患者有88例,经过催吐和洗胃、应
风险投资是具有高风险、高潜在收益的投资,一般采取风险投资基金的方式运作,是投资非上市企业的主要投资方式。本文从风险投资机构高榕资本的角度出发,研究分析其投资拼好货
天津北方网讯:记者从市消费者协会获悉,涉及健身、美容美发、洗车等行业的预付式消费投诉一直以来居高不下。中消协今天上午发布预付式消费调查体验结果,所调查的所有商家均存在
目的研究麝黄消瘤汤对人肝癌细胞系(Bel-7402)的抑制增殖作用.方法制备含药血清,孵化人肝癌细胞系(Bel-7402),用MTT比色法、倒置相差显微镜观察法及PCNA(增殖细胞核抗原)免疫
<正>蔬菜水果遇水&#39;掉色&#39;是因漂染颜色?西瓜太甜是因为打了针?拼接牛排靠的是&#39;胶粘碎肉&#39;?标题如此&#39;惊悚&#39;的文章,经常在微信朋友圈中疯狂传播,真相到
期刊
<正>今日,记者从中国消费者协会获悉,2017年第一季度全国消协组织共受理消费者投诉123 337件,解决96 328件,投诉解决率78.1%,为消费者挽回经济损失16 020万元。其中,因经营者
期刊
<正>5月14日,王先生在在青岛团结路青岛聚兴汽车销售服务有限公司(以下简称:聚兴4S店)交了5000元定金订了一台红色雪佛兰赛欧轿车,双方购车合同约定如果无车可退款。但直到5
期刊
目的探讨拉贝洛尔对妊娠高血压的治疗效果及分娩结局的影响。方法选取我院130例妊娠期高血压患者为研究对象,随机分成两组。对照组患者采用硫酸镁治疗,研究组患者在此的基础