基于Seq2Seq&WaveNet的安多藏语语音合成技术研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:xiaolongyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是以语音为研究对象,通过信号处理技术让计算机合成人类自然语言,是智能人-机语音交互的核心技术之一,它对智能机器人、自动化家居等研制具有重要的研究和实用价值。藏语语音合成是中文信息处理的重要组成部分,同时也是藏语智能人-机语音交互的重点和难点,它的研究对藏族各地区的智能化发展有着重要的推动作用。安多藏语作为藏族三大方言之一,在青海、甘肃、四川等地区使用广泛,其语音合成的研究是目前藏语语音合成的热点,因此本文以安多藏语语音合成为主要研究目标。为了提高安多藏语语音合成的自然度、可懂度和清晰度,本文从语料库构建及预处理、文本输入基元的选择、语音合成声学模型和语音波形合成等四方面研究了基于Seq2Seq&WaveNet深度学习的安多藏语语音合成技术,设计实现了安多藏语语音合成系统,并将其应用到了安多公交报站系统中。在语料库构建及预处理方面,本文构建了大小为8938 KB,包含47023个句子、476832个音节和1290168个音素藏语文本语料库,构建了大小为4.2G,含47023个句子,约38.46小时藏语语音语料库,并对文本语料库做了数字文本转换、英文及符号转换等预处理工作,对藏语语音语料库做了预加重、分帧、加窗等预处理工作。在文本输入基元选择方面,本文在分析藏文文本结构特点的基础上,对比分析了音素、音节、国际音标等三种不同基元对安多藏语语音合成性能的影响,得出了在目前技术条件下以音素为文本基元比较适合安多藏语语音合成的结论。在文本声学特征提取方面,本文在Seq2Seq基础上添加了Post-Net层来进一步优化Mel频谱特征提取效果,在语音波形合成方面,考虑到WaveNet有着更好的相位信息恢复能力,用WaveNet替换了当前藏语语音合成中常用的Griffin-lim声码器,并实验结果验证了Seq2Seq&WaveNet模型的有效性。在安多藏语语音合成系统的实现及应用方面,本文设计实现了以Seq2Seq&WaveNet模型为合成模型的藏语语音合成系统,并将该合成系统模型应用到了安多藏语公交报站系统中。
其他文献
高原林蛙(Rana kukunoris)是青藏高原的特有物种,原属于中国林蛙(Rana chensinensis),现在隶属于两栖纲(Amphibia)无尾目(Anura)蛙科(Ranidae)林蛙属,主要分布于青藏高原东部海拔2000~4400 m的地区。本研究的主要目的是检验高原林蛙三个关键的解剖学特征是否存在地理变异,明确影响其种群解剖学特征地理变异的关键环境因子,分析其解剖学特征与环境因子
学位
超分子凝胶是分子在非共价键作用下形成的一种软材料,因其在多个领域有着广泛应用而受到了科学家的青睐。酰基氯化物如光气,草酰氯等在医药、农药、有机合成中间体等方面有着应用广泛。但是酰基氯化物普遍有剧毒性,研究表明人体暴露于20 ppm光气中,20 min内会引起严重的肺损伤和呼吸道损伤。因此,对酰基氯化物的即时、灵敏检测成为亟待解决的难题。本论文设计合成了几种超分子自组装体系,可以方便快速、可视化检测
学位
作为国家经济的战略性支柱产业,旅游业的快速发展在带来区域经济增长的同时,一定程度上影响着区域的生态环境。从生态文明建设视角切入,旅游业的有序健康发展是以生态环境保护为基础和前提。因此,提高旅游生态效率,以最小的环境代价来取得最大的经济效益,是各地政府在旅游业发展的过程中应该关注的重要课题。信阳市拥有得天独厚的旅游资源优势,旅游业发展的经济效益可观,但因旅游开发不合理、旅游管理机制不对称等带来的环境
学位
随着我国公路的快速发展,面对多种复杂的地形条件,特别是在一些狭窄的山区沟壑,如何选择设计最合理的支挡结构成为一大重要难题。而拱形挡土墙的应力分布相比较于其他形式的挡土墙更为均匀,因此不仅能提高结构的材料强度,并且还能够大大缩短其建设工程项目的工程进度,从而广泛应用在我国的一些山区复杂地段。但是从目前的研究成果来看,暂时还没有相关的具体设计和施工规范可以作为参考。本论文对拱形挡土墙进行了整体连续性模
学位
目前,公路和铁路发展迅速,交通噪声严重影响附近居民的生活。声屏障作为降低交通噪声的重要工具也因此逐渐得到了广泛的应用。声屏障结构的降噪效果受多种不确定因素的影响,如声屏障的表面平整度、材料组成、顶端形状等也都是不确定的。基于解析求解的方法在简单结构声学的不确定分析已取得坚实的理论基础,然而难以应用于复杂结构,因此开发一套有效的数值求解方法具有十分重要的实际意义。本文的主要目的是建立不同形状声屏障结
学位
本文基于建筑节能环保需求背景,提出了粉煤灰,硅灰和玻化微珠三者在混凝土中的固化处置方法。玻化微珠作为无机保温材料掺入混凝土中不仅具有保温隔热的特性而且符合建筑节能环保的主题,但是考虑到其质轻,易碎的物理特性,会导致混凝土力学性能有所降低,因此本文将粉煤灰和硅灰作为胶凝材料以一定掺量代替水泥掺入混凝土中,一方面可以对玻化微珠混凝土的力学性能起到积极作用,另一方面以工业副产品代替水泥可以减少水泥用量,
学位
疾病相关生物标志物(如核酸、蛋白质、小分子等)的准确、灵敏测定在现代生物化学和生物医学研究的许多领域都具有重要意义。这些诊断量化不但对患者的早期治疗至关重要,同时还能够有助于认识了解与疾病发展有关的基本生理学信息和监测患者对诊疗方法的反应。电化学发光(Electrochemiluminescence,ECL)分析是现代分析科学的前沿领域之一,其具有电化学分析方法的高可控性和发光分析方法的高灵敏度,
学位
3D打印技术对材料的利用率高,加工复杂类零件成本低,在各行各业均发挥出较大的技术优势。熔融沉积成型技术(Fused Deposition Modeling,FDM)是其重要分支,其设备使用与维护便捷,后处理成本低,得到了广泛应用。传统FDM型3D打印设备需要对丝材进行二次熔融,材料选择存在较大限制,喷头挤出动力有限且难以实现连续化生产。本课题设计开发一种螺杆挤出式3D打印设备,并针对喷头各项性能进
学位
教育信息化2.0时代,数字教育资源作为中职教师信息化教学要素和资源呈现手段,在教育教学中处于重要地位。随着中职教育信息化进程加快,需要教师通过数字技术将教育资源转化为数字化的数据资源,或者利用资源平台内的资源检索实现职教数字资源积累,在资源聚合和应用过程中赋予数字教育资源相应的数据价值,为教育信息化提供动能,为实现智慧职业教育奠定数据基础,为中职学校数字化转型升级创造无限可能性。中职教师实际使用数
学位
语音沟通是人们活动中不可分割的重要部分,随着技术的进步,语音识别、情感识别、说话人鉴别等自动语音处理系统得到了广泛的应用,也有越来越多的人机交互设备采用语音作为主要交互方式。然而,现实生活中,各种噪声的干扰十分普遍,这会显著降低各种语音处理系统的性能。因此,有必要研究能够减弱噪声和干扰对语音影响的语音增强系统。语音增强系统经过多年发展,已经取得了一定成果,但依然存在较多不足,例如:(1)语音增强系
学位