基于深度神经网络的汉语语音合成的研究

被引量 : 0次 | 上传用户:sist_003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音合成技术的日益成熟,一方面使其在人们的生活中得到了越来越广泛的应用,而另一方面也使人们对语音合成系统的要求越来越高。基于隐马尔可夫模型(HMM)的统计参数语音合成合成技术因为其较优秀的合成效果,且便于通过对模型参数的调整达到声音转换的目的成为了目前最受关注的方法之一。然而HMM合成声音仍然存在声音过于平滑,沉闷,缺乏细节,自然度不高等等影响音质的问题需要解决。本文为了提高基于HMM的语音合成的音质,用少量的数据,从参数转换的角度,运用深度神经网络(DNN)对不同的参数进行训练得到转换模型,重新合成达到提升合成音质的效果。(1)针对神经网络的隐藏层数、结构等都会对深度学习的结果造成不同的影响从而影响DNN的构建,本文比较了在不同参数、结构的条件下,用DNN进行静音/清音/浊音(S/U/V)的判别效果,以此探讨不同的结构和参数对于DNN训练的影响,并实验证明了DNN判别S/U/V的有效性。(2)本文指出HTS自然度的下降主要是由于合成语音中频谱的细节部分由于基于统计参数的训练而丢失,尝试了从参数转换的角度,用DNN对HMM合成系统的合成语音谱参向原始语音进行转换。通过对各个发音基元找到原语料和合成语料的对应的平行语料,提取出其中相近的部分参数作为DNN对应的输入层和输出层节点的数据,训练出以发音基元为单位的DNN,通过这些网络进行合成语音的参数转换,对比原合成语音证明,用DNN对合成频谱参数进行转换能够提高合成语音的自然度。(3)为了进一步提高音质,改善合成效果,本文探讨了对暂时分解(TD)算法得到的参数进行转换的方案。暂时分解得到的语音的事件函数影响语音本身的可懂度,事件向量影响语音本身的自然度。由于HMM在可懂度上已经不错,因此本文尝试对TD分解得到的事件向量进行DNN训练建立转换模型并同未转换的事件函数进行再合成。实验证明,用DNN转换合成后的频谱更接近原始频谱,主观评测也表明,用该方法能有效地改善合成语音的音质。
其他文献
回顾了蒸发冷凝技术研究的发展,并对蒸发式冷凝器进行了分类,通过对各自特点的介绍,重点将板式蒸发式冷凝器与管式蒸发式冷凝器进行了对比,分析了两者降膜的不同,指出板式蒸
中职会计专业主要培养的是有较强职业能力的技能型劳动者和初级专门人才,但是现行的会计教学体系很难培养出目前市场上所需的会计人才。中职会计教学要以市场为导向,更新中职
世界正全面快速发展,十指在键盘上穿梭飞舞,人类不断从繁重的体力劳动中解脱出来。琳琅满目的广告随处可见,各种各样的字体充塞着广告牌。一些用毛笔书写的老字号老牌匾如凤
活性炭是一种优良的吸附剂,广泛用于医药、化工、环保、冶金和炼油等行业的脱色、除臭、除杂分离。油茶果壳中含有的大量木质素具有独特的物理结构,是生产活性炭的良好原料。本
优化处理绿松石的大量面市,给绿松石的鉴定带来了挑战。通过激光拉曼光谱测试分析、压制及人工注塑处理绿松石为研究对象,对优化处理绿松石的激光拉曼光谱特征进行了研究。结
设计搭建了文丘里洗涤器模拟实验装置,分别以氢氧化钠和氢氧化钙为脱硫剂,进行冷态实验,研究了吸收液浓度、液气比、喉管气速和入口二氧化硫浓度对脱硫效率的影响,得到了最佳
随着经济全球化趋势的加强,改革开放以来我国出口贸易犹如雨后春笋不断增长。逐渐成为我国市场经济和国民经济建设不可或缺的重要推动力。然而在新信息技术革命的冲击下,欧美
交会对接技术是用于人类实现空间站的装配、太空平台的维修和补给的一项关键性技术,同时也可以用于航天员的交换及营救等高级空间服务。本文基于某实际项目“XX控制与仿真”,根
目的调查原发性癫痫患儿心理行为问题及其相关家庭因素,为癫痫患儿的心理干预提供依据。方法以35例原发性癫痫患儿和35例正常儿童为研究对象,应用Achenbach儿童行为量表(Chil
义务教育作为最基础阶段的教育,直接影响着学生今后的成长成才,随着人民生活水平的提高,民众对子女的教育问题越来越重视,义务教育的均衡发展问题日益成为政府和人民群众关注的焦