【摘 要】
:
藏族是我国五十五个少数民族之一,分布较广,人口众多。藏族人说普通话受其本民族语言发音习惯的影响,常常会带有一些固定类型的发音错误。随着语音处理技术和人工智能的飞速发展,计算机辅助语言学习系统(Computer Aided Language Learning,CALL)越来越受到人们的青睐,这种教育方式将会是一个新的趋势。本文以甘肃地区藏族人学习普通话发音为研究对象,从语言学角度对比分析藏语和标准普
论文部分内容阅读
藏族是我国五十五个少数民族之一,分布较广,人口众多。藏族人说普通话受其本民族语言发音习惯的影响,常常会带有一些固定类型的发音错误。随着语音处理技术和人工智能的飞速发展,计算机辅助语言学习系统(Computer Aided Language Learning,CALL)越来越受到人们的青睐,这种教育方式将会是一个新的趋势。本文以甘肃地区藏族人学习普通话发音为研究对象,从语言学角度对比分析藏语和标准普通话的发音特征,构建合适的语料库。利用语音信号处理和机器学习相关理论,提取藏语语者普通话发音特征的信息,在音节层和音素层分别实现对藏语语者普通话的错误发音检测和发音及整体质量相似度测量。本文的主要工作和创新如下:1、建立了一个适用于藏语语者普通话发音评估研究的语料库。本文先从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征,在此基础上进行文本设计和语音录制。进一步地,对录制的音频文件进行分层标注:短语层用汉字标注;音节层用汉语拼音标注;设计藏语标准普通话的计算机可读音标(Speech Assessment Methods Phonetic Alphabet-Tibetan Standard Chinese,SAMPA-TSC)来标注音素层。最后对创建好的语料库从覆盖性、全面性、质量和可重复使用性进行四个方面的科学评估。2、实现了一种改进的自动音节音素分割方法。本文先从文本到音频的对齐角度出发,建立基于隐半马尔科夫模型(Hidden Semi-Markov Model,HSMM)的分割方法,其最终的音节和音素起始1值分别为36.16%和38.99%,音节和音素的正确分割率分别为64.09%和47.71%。为了获得更理想的分割效果,本文又从起始检测角度出发,建立基于起始检测模型的分割方法,该方法的音节和音素起始1值分别为75.09%和75.23%,音节和音素的正确分割率分别为84.19%和60.49%。3、实现了一种在音节层级错误发音检测的方法。它是藏语语者普通话发音评估的一个子任务,基于音节分割和判别网络模型。其中,音节分割方法使用的是基于起始检测的分割方法,其音节的起始1值为77.61%,正确分割率为86.74%。而判别网络模型,其基线模型是带有双向长短时记忆网络(Bi-directional Long Short Term Memory,Bi-LSTM)单元的循环神经网络(Recurrent Neural Network,RNN)结构,然后尝试了将卷积神经网络(Convolutional Neural Network,CNN)、注意力机制(Attention mechanism)和Dropout等其他深度学习方法结合到该基线模型中,最终的模型在测试集上的错误发音检测准确率为62.37%。4、实现了一种在音素层级的发音及整体质量相似度测量的方法。它是藏语语者普通话发音评估的另一个子任务。本文先通过主要部分为单个或多个循环层的音素嵌入神经网络(带有Bi-LSTM单元的RNN)将变长的音素段转换为定长向量,然后根据验证集的结果确定最终层数:发音方面为2个循环层的RNN结构;整体质量方面为1个循环层的RNN结构。然而在测试集实验时,发现整体质量的结果与验证集上的结果相差较大。我们分析原因做出合理猜想并通过实验验证我们的猜想。最后对音素嵌入神经网络分别进行改进:添加Attention机制、使用32维度嵌入、叠加CNN层、使用Dropout方法,最终改进模型的实验结果在发音和整体质量方面均有不同程度的提高。
其他文献
抑郁症是一种常见的精神障碍,其主要特征为情绪低落、兴趣减退等。由于其较高的患病率和复发率,引起公众的广泛关注。目前,抑郁症的检测方法主要是基于经验丰富的医生的诊断和抑郁量表,这些方法都过于主观且相对不够准确。再加上人们对于抑郁疾患的偏见,使得抑郁症的就诊率和治疗效果都比较差。为此,找到一种客观、有效且适用性高的抑郁症检测方法显得尤为重要。语音以其非侵入,低成本,易获得等特点,使基于语音信号的抑郁识
沙拐枣作为塔克拉玛干沙漠公路防护林主要树种之一,其凋落物储量在各植被类型中最高,通过探究不同环境因素下凋落物分解的变化规律,为沙漠公路防护林的养分物质循环提供理论支持,对于准确估计该区域内的物质循环与能量转化有重要意义。本文通过室内培养试验探究了沙拐枣凋落物表面覆盖、原状混合处理在不同含水量(W1:25%田间持水量、W2:50%田间持水量)的淡水(S0:0 g·L-1)和咸水(S1:4 g·L-1
与汉语、英语等主流语言的语音合成技术相比,藏语语音合成技术合成的语音在自然度和相似度上还存在较大的差距,因此,借鉴主流语言的语音合成技术来研究藏语语音合成具有重要的意义。同时,由于嵌入式设备性能的不断提升,将藏语语音合成技术与嵌入式设备相结合,可以实现便携式的藏语语音合成系统。本文以嵌入式藏语语音合成为研究对象,设计并建立了一个藏语语音合成语料库,分析并改进了语音合成系统中的声码器,在此基础上,搭
在线语音识别是语音处理与应用的重要研究领域之一,近年来,随着网络与通信技术的不断发展,越来越多的技术应用于在线领域,语音识别作为一种重要的人机交互技术越来越得到重视。目前,主流语言如英语、汉语、日语等语言的研究与应用已经很成熟,也有容易获取的大数据量语料库。但是藏语识别方向还存在一些有待解决的问题,藏语作为一种低资源语言,语料库的录制也存在一些困难。基于藏语识别方向研究人数较少,研究基础较为薄弱,
基于无线能量采集(Wireless Energy Harvesting,WEH)技术的无线通信网络是具有应用前景的热点研究方向。通过无线能量采集和无线信息传输的结合,可以有效的解决无线通信网络中能量受限节点的能量供应不足的问题。而且由于无线信道衰落特性会造成信号功率衰减,从而影响传输距离。所以,如何解决终端设备的供电问题以及无线信息的有效传输具有非常重要的研究意义。在传统的通信网络中,通过对某些网
生物多样性与生态系统功能的关系一直是生态学研究的核心议题。早期关于二者关系的研究大多侧重于探索植物多样性与单一生态系统功能的关系,而忽视了生态系统能够同时提供多种功能和服务,即具有生态系统多功能性(Ecosystem multifunctionality),且同时受到地上与地下生物多样性的影响与调控。黄土高原是我国生态环境最为脆弱的地区,柠条人工林是黄土高原生态恢复的重要措施,其种植与生长被证实对
黄土高原人工林植被普遍出现土壤干层,造成生态水文环境恶化。干旱地区林木深层根系是其水分和养分吸收的主要通道,维持植被的蒸腾蒸发及生长。特别是细根负责从土壤中获取养分和水以支持植物生长并确保生存,明确其分布规律对研究黄土高原人工林植被林地的深层土壤水利用特征研究具有重大意义。而由于深层土壤取样难度大,导致黄土高原人工林深层细根分布特征不甚清晰,本文选取黄土高原典型气候研究区和典型植被,从南到北依次选
随着手机、电脑等便携设备性能的提升和互联网的高速发展,使得如今的语音信息呈指数式增加,且语音格式的种类繁多。这一变化使得人们如何快速的实现多格式下的语音认证、提高语音的检索效率与精度及其保证云端数据的安全性成为亟须解决的问题。论文分别以多格式语音认证、密文语音检索为研究背景,对数字信号处理、生物特征模板的构建、语音加密和哈希索引构建算法等技术展开研究。主要研究内容及贡献如下:1、针对现存语音内容认