基于深度学习的安多方言到卫藏方言语音转换的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:jingyu0722
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏族的不同方言在发音上的巨大差异,造成了不同方言区的人们在面对面交流时存在着巨大的困难。近年来,汉语和英语的语音转换技术取得了很大进步,但是目前只有使用五度字调模型实现的藏语语音转换。该方法只修改基频曲线,且转换后的音质较差。为此,我们提出利用深度学习方法,使用深度神经网络(Deep Neural Network,DNN)分别在平行语料和非平行语料情况下实现藏语的安多方言到卫藏方言语音转换的实验。主要的研究工作与创新如下:1、分析了两种方言的差异性,分别建立了平行语料库和非平行语料库。2、利用平行语料方法实现安多方言到卫藏方言的语音转换。在训练阶段,提取了两种方言语音语料的声学特征参数,利用DNN训练了转换模型。在转换阶段,输入安多方言语音的声学特征参数,经过转换模型可得到转换后的卫藏方言语音的声学特征参数,最后经过声码器合成卫藏方言语音。3、利用非平行语料方法实现安多方言到卫藏方言的语音转换。首先,根据两种方言的发音差异,设计了两种方言的发音映射表。根据发音映射表,设计了识别阶段的发音字典和合成阶段的上下文相关标注。然后利用DNN作为安多方言语音识别和卫藏方言语音合成的网络模型。4、对两种方法转换后的语音的自然度、可懂度以及其与目标语音的相似度进行评测。实验结果表明,本文非平行语料方法比平行语料方法转换后的卫藏方言的语音质量更好。
其他文献
本文考虑两种非标准的更新模型,其索赔额分布是重尾的。我们研究当初始资产趋于无穷时,其破产概率的渐近性。第一个模型是具有随机投资回报的非标准更新模型。保险公司将其财
随着行业市场化取向改革的深入,基于零售终端的卷烟消费需求信息数据库初具雏形。如何分析和应用好这部分数据,让大数据为改革注入新动力是十分必要的。应用好卷烟消费需求数
随着我国移动互联网的快速发展,大数据、二维码、社交媒体等互联网创新技术应用大量涌现,互联网思维正加速融入行业之中,企业发展模式逐渐从传统生产要素驱动转变为数据信息
进入二十一世纪,互联网上的文本信息呈现爆炸式增长,为了在这种海量信息中解决我们关心的问题,自然语言处理的研究应运而生。自然语言处理是一系列任务的统称,包括但不限于机
阵列信号波达方向(Direction of Arrival,DOA)估计是信号处理中的一项关键技术,广泛应用在雷达、通信和导航等领域。针对K波段频率范围信号的DOA估计问题,传统DOA估计算法存
环形锻件作为各行业中重大机械装备的重要组成部分,是航空发动机中重要的承力单元,同时作为一种高精度零件,在单台份的航空发动机锻件中占比很重。为了保证加工质量,通常采用
样品前处理是复杂生物样品分析过程中不可或缺的一部分。而吸附剂的选择性会直接影响到分析方法的灵敏度与准确性。本文分别采用具有高选择性的金属掺杂和硼亲和两种吸附剂,
SOST基因(Sclerostin,SOST)编码硬化蛋白,是由骨细胞特异性分泌的含“胱氨酸结”的糖蛋白,它通过结合到LRP5/6复合体,抑制经典Wnt/β-catenin信号,负调控骨形成。硬化蛋白单
OsMY1(GenBank DQ641916)基因是本实验室前期通过酵母双杂交筛选,从水稻雌雄蕊形成期幼穗cDNA库中分离得到的功能未知基因。序列分析显示,该基因cDNA编码区的5’端不完整。本
近年来,超分子化学已经受到了普遍的关注。分子间通过分子识别、分子自组装形成结构各异、形态可控的组装体,并具有特异性能,广泛的应用于生命科学生物体中。本文主要详述一