基于自动语种识别的汉藏双语跨语言语音转换研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:jinkejinlv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社会的迅速发展,人机语音交互成为当前的研究热点,人机交换也被应用到通信、教育等行业。然而,在此过程中,由于语言和地域文化的差异导致不同种族之间的交流形成了一种难以跨越的鸿沟,例如少数民族人民想要了解汉族文化或者其他民族文化。为了克服大多数应用场景下的人机语音交互障碍,研究跨语言语音转换成了学术界关注的热门话题之一。藏语系属少数民族语言,使用人数比较多,分布范围也很广泛。因此,基于汉藏双语的跨语言语音转换研究,有学者进行了前期的分析实验,比如通过隐马尔科夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Networks,DNN)实现汉藏双语语音合成,但该方法表明转换后的语音音质欠佳,且自然度不够流畅。故本文在前者研究的基础上完成了以下的创新和工作:(1)通过时延神经网络(Time Delay Neural Network,TDNN)结构训练x-vector特征提取器去提取x-vector特征从而实现汉藏双语语种的识别研究,该训练模型通过评分得到等错误率。实验结果显示藏语等错误率为31.84%,汉语等错误率为27.51%。(2)通过语音识别、机器翻译、语音合成以及音色转换四部分完成了汉藏双语跨语言语音转换。首先采用深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)和连接时序分类(Connectionist Temporal Classification,CTC)实现了端到端的汉语和藏语语音识别,分别得出汉语词错误率为0.47、藏语词错误率为0.52;其次采用带有注意力机制的序列到序列模型完成机器翻译,该模型以汉语/藏语序列作为输入,藏语/汉语序列作为输出;继而采用Tacotron模型和非自回归Fastspeech模型实现藏语和汉语的语音合成,由主观评测可知汉语MOS值为3.8,藏语MOS值为3.06,藏语合成效果欠佳;最后采用StarGAN-VC2模型对藏语安多方言和卫藏方言进行语音音色转换研究,实验结果表明,该模型在语音音质以及相似度等方面都有明显的提高,主观评测MOS值和DMOS值分别为3.4和3.608,客观评测表明转换后的语音相似度更接近于目标语音。(3)对汉藏双语跨语言语音转换进行主观和客观评测,由评测结果可知,汉藏跨语言语音转换的MOS和DMOS平均值分别为3.04、3.27;藏汉跨语言语音转换的MOS和DMOS平均值分别为3.18、3.38。本实验在研究跨语言语音转换实验上有了一定的改进,且在前端加入了语种识别实验。与传统的跨语言语音转换相比,本文提出的汉藏双语跨语言语音合成后的音质效果较优。
其他文献
近年来,为解决我国国有企业在较长的一段时间内面临着政策性负担较重、经营效率较低、业绩不佳等诸多问题,我国开展了国有企业混合所有制改革,同时促进国有资本保值增值、提高国有经济竞争力、放大国有资本功能,以推进国有企业更好发展。目前许多研究都已表明,国有企业进行混合所有制改革能够缓解“一股独大”等引起的代理问题,为国有企业带来许多方面的积极效应,同时此前许多研究发现由于国有企业存在的代理等问题使其存在较
学位
随着人口结构和生活方式的改变,近年来慢性病、亚健康逐渐成为威胁人类健康的突出问题,加之人们健康意识的不断提高,健康和医疗问题越来越受到人们的关注。同时,在经济“新常态”背景下,中共中央、国务院联合印发《“健康中国2030”规划纲要》,强调大力发展健康保障、健康产业,使其有望成为我国经济增长新动力。在“健康中国建设”战略背景下,我国商业健康保险和健康消费发展迅猛。商业健康保险作为我国医疗保障体系一部
学位
浙江是我国率先提出特色小镇概念的省份。特色小镇的发展类型一般有生态旅游型小镇、历史文化型小镇、特色产业型小镇、康养度假型小镇、新兴创意型小镇、运动休闲特色小镇等。自2014年特色小镇概念被提及起,截至2017年8月,全国已有403个特色小镇。为了给特色小镇的建设提供参考,分析了浙江省特色小镇的发展历程,指出了特色小镇在发展过程中存在的“服务或产品同质化、盲目跟风建设现象严重、缺少多元化发展元素”等
期刊
中国是一个地域辽阔、民族众多、方言种类丰富的国家,地方民族都有着各自的地方用语。目前很多少数民族方言都被列入国家濒危语言,因此我国提倡大力保护少数民族方言这一非物质文化遗产。普通话作为国家通用语言需要在少数民族之间广泛传播,但在少数民族地区非常缺乏可以教学少数民族普通话的双语教师。因此,研究少数民族方言语音合成技术不仅可以保护民族方言,还对少数民族地区的国家通用语言教育事业有着极其重要的意义。我国
学位
目的 分析内蒙古自治区35~75岁居民中心型肥胖与心血管代谢性疾病和共病的关联。方法 选择2015年9月—2017年6月“心血管病高危人群早期筛查与综合干预项目”中内蒙古自治区招募的35~75岁居民为研究对象。采用SPSS 25.0和GraphPad Prism 5软件进行统计分析,采用统计描述、x2检验和Logistic回归分析中心型肥胖对心血管代谢性疾病(高血压、糖尿病、血脂异常)和共病的影响
期刊
新冠病毒疫情自2019年底开始在全世界爆发,疫情的处置与预测成为政府的重要工作之一。学校校园内人群聚集度高、流动性强,容易爆发聚集性疫情。合理的校园疫情防控措施不仅能及时控制感染者的继续传播,同时对正常的经济发展和学生的心理健康有着直接的影响。论文旨在研究传染病模型参数估计问题,在Unity3D平台结合病毒传染模型模拟学校出现感染病例后,如何采取合理的防控措施应对疫情。本文以现有疫情数据为观测集,
学位
可持续发展战略将生态环境与经济发展视为人类社会存在的两大基石,而生产绿色产品正是将“绿色”与“经济发展”合二为一的有效途径。并且,预售作为借助互联网应运而生的销售手段,可以实现消费者对产品的自传播和推广,以及帮助企业预测产品的市场规模,从而降低企业的运营成本。基于此,本文以制造商为主导的绿色产品供应链作为研究对象,探讨预售模式对由制造商和电商预售平台组成的供应链的影响,并引入公平关切理论,通过构建
学位
运用文献研究法、实地调查法、访谈调研法等方法,掌握邯郸市特色小镇发展现状和趋势,对邯郸市特色小镇发展做出合理分析,发现其目前存在宣传力度不足、现代化的智慧旅游建设有所欠缺、缺乏联合营销等问题,为提升特色小镇的竞争力,可以采取加大宣传力度、广泛融入智慧旅游元素、寻求合作并创建联合营销模式等方式,推进小镇的高质量发展。
期刊
目标检测方法已取得快速发展,在预测人类活动、轨迹和与物体的交互在诸如人机交互、工业和日常生活场景等很多领域都得到了应用,但在某些实际应用场景中,经常受外界环境及复杂背景影响,被检测物体特征不明显,场景范围大,多尺度目标检测困难及存在漏检误检等问题,导致目标检测算法无法达到预期效果。本课题通过分析卷积神经网络经典算法的原理和优势、对现有模型进行比较总结,针对以上问题,本课题围绕以深度学习为核心的目标
学位
实体经济是一国经济的立身之本,是财富创造的根本源泉,是国家强盛的重要支柱。实体零售作为实体经济的重要组成部分,是关乎国计民生的关键行业。近年来,虽然互联网零售的快速发展和流量红利对其构成了巨大冲击,但是实体零售也有互联网零售无法与之相比的优势,例如可以为消费者带来线下的社交体验和购物体验。因此对于实体零售商而言,如何给消费者营造良好的购物环境进而给消费者带来良好的购物体验是其应对冲击的方法之一。并
学位