论文部分内容阅读
在人类发展的历史长河中,语音作为人类交流必不可少的一部分,一直是国内外学者研究的重点课题。如何让计算机与人类通过“语言”交流更是热门的研究对象。随着Siri等许多语音识别软件的出现和智能家居的兴起,智能语音处理的应用逐渐走进人们的生活,并持续地扮演重要角色。在这个大数据的时代,拥有着对数据建模超能力的深度学习算法,已经被普及于语音识别、图像处理等模式识别领域。目前,语音识别技术针对英语、日语、德语、中文等主流国际语言识别正确率高达99%以上。但是针对像藏语这样的民族方言研究仍处在很浅显的阶段。因此,本文主要研究提高深度学习在藏语安多方言连续语音识别上的效果。本文主要工作如下:1.建立了一个用于藏语安多方言语音识别的大规模语音语料库。我们选取了10000个藏语常用句子来构建藏语安多方言语料库。我们筛选了以藏语安多方言为母语的5位男性说话人和5位女性说话人,每人录制1000句语音,一共录制的语料库时长为15.6小时。再根据发音词典对文本语料进行标注,并将语料按照3:1的比例分别组成训练集和测试集。2.实现了基于深度神经网络(Deep Neural Networks,DNN)和隐马尔科夫模型(Hidden Markov Model,HMM)的藏语安多方言语音识别。我们首先对原始语音进行预处理、提取特征等操作,接下来利用相应的文本训练语言模型。然后利用训练集的语料进行大量训练,生成声学模型。最后将测试集语料输入模型,通过解码识别出词序列,字错率为28.3%。3.实现了基于混合端到端藏语安多方言语音识别。本文分别搭建了基于连接时态分类(connectionist temporal classification,CTC)和基于Attention架构的端到端藏语安多方言语音识别模型,并提出了一种基于混合CTC/Attention的方法来优化藏语安多方言语音识别的方法。通过调整系统的CTC所占权重参数来提高系统精确度,优化模型。当参数取0.2时,混合端到端模型的字错率最低,为31.5%。