基于深度学习的中文语音合成

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:dragoncool
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(Text-to-Speech,TTS)作为下一代人机交互的关键技术之一,是计算机语音领域的重要研究方向。现有方法的问题主要反映在:合成语音自然度差,定制化程度低,应用场景受限等。本文围绕实用级别中文语音合成存在的问题开展了研究,主要包括以下三个方面的工作。第一部分,为了解决传统方法的合成语音自然度差,且基于深度学习的系统语音生成不稳定、合成速度慢等问题,提出了一种中文语音合成策略。本文探索了端到端语音合成在中文上的应用,使合成语音更好地拟合人类发音。并提出了带约束的注意力机制,提高了合成稳定性。同时把神经网络和传统信号处理算法Griffin-Lim结合,将CPU上语音样本点的生成速率由0.061 kHz提高到21.837kHz。最终实现的中文语音合成系统可稳定快速地生成高自然度语音。第二部分,在明星语音合成、实时语音模仿等定制语音场景中,为了弥补传统方法语音克隆时需要大量语料的缺陷,探讨了个性化语音合成方法。本文提出的两种方法均能利用少于10分钟的音频,将合成语音快速迁移到目标说话人的口音上,这两种方法分别是微调模型和增加语音转换模块。前者探索迁移学习在语音合成领域的应用,方法简单且效果出色。后者利用半监督学习,降低语音转换模块的训练难度,为语音合成系统添加该模块后,即能实现可定制的语音合成。第三部分,针对合成场景中多语种混杂,以及模型声音复刻能力较弱的问题,讨论了跨语种多说话人语音合成方案。本文研究并设计了跨语种文本前端,并提出一种说话人编码网络,可高效提取输入语音的说话人特征,生成固定长度的说话人嵌入向量,同时探讨了说话人嵌入向量与声学特征生成网络的特征融合问题。提出的模型能够合成包括中文在内的不同语种、多个说话人的语音,甚至能够对未见说话人进行语音合成。本文采用多种评价方法,验证了上述方案的有效性。提出的中文语音合成系统的平均意见得分达到了 4.048,高于广泛使用的谷歌拼接语音合成的3.480,以及参数语音合成的3.790。此外,个性化语音合成的平均意见得分达到了 3.560。在跨语种多说话人语音合成中,合成语音的自然度平均意见得分达到了 3.762,相似度平均意见得分则为3.418。相比同类研究,提出的方案在语料要求、合成语音自然度和相似度等方面均有较为明显的优势。
其他文献
随着网络技术的迅猛发展,越来越多有价值的资源仅以网络信息的形式存在,互联网已经成为全球最大的信息库。作为国家文化遗产的重要组成部分,网络资源在保持高速增长的同时也在大
中国画作为中华民族艺术的象征,已经走过一个漫长的里程,它以其自成体系的美学特色而独立于世界艺术之林.传统的中国画分山水,花鸟、人物三种样式,在形成固有程式的同时也规
<正>语文核心素养要求语文教育注重文化理解与传承。"语文"之于"文化"恰如苏轼在《赤壁赋》中所言"纵一苇之所如,凌万顷之茫然"。"语文"是"一苇","文化"就是那茫然之"万顷"。
目的:探究对脑梗死患者进行早期康复护理对其语言功能及运动功能的影响。方法:选择绵阳市中心医院收治的72例脑梗死患者作为研究对象。随机将其分为试验组(n=36)与对比组(n=3
针对安装电气火灾报警系统的必要以及电力物联网的发展,设计了基于物联网技术的电气火灾报警远程监控系统,按照物联网的三层结构展开设计,包括感知层的剩余电流、烟雾浓度等信号的采集、通过Internet实现数据的传输、在应用平台对数据进行存储与分析处理。使用该系统不但可以在现场以声光报警提示还可以使用户通过Internet在PC机上进行监控。
本文根据散打运动项目的特点和要求运用文献资料法和专家访谈法,分析了武术散打运动员的选材的相关指标和遗传因素。应用竞技体育发展的规律和理论,总结指出武术散打运动中科
近年来,我国馆配市场发展迅速,同时,市场的逐步规范化和专业化也为馆配市场发展提供了较好的空间。作为馆配市场供应链的主体,图书馆、馆配商和出版社在市场的不断发展过程中,逐渐
采用文献资料、电话采访、逻辑分析等方法,调查研究了有史以来有关啦啦操运动研究的成果,旨在为啦啦操运动项目的健康发展提供支持。主要结论:啦啦操运动在不断发展壮大的同时
地质灾害调查时,灾体通常都处于不稳定的状态下,给调查人员的人身安全带来威胁。通过无人机基于倾斜摄影技术构建直观、立体、真实的三维全景模型,调查人员无需实地踏勘便能
化工厂设备种类繁多、架构复杂,在以往工作模式中需要大量人工来进行控制,带来较大成本,但人工控制依旧存在控制不及时、控制不完善等问题,因此现代化工厂积极对设备进行改造