语音合成声学建模技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：neusoftlyh

【摘要】

：

深度学习的蓬勃发展极大地推动了语音合成声学建模技术的革新。本文以深度学习技术为理论基础，对语音合成声学建模技术进行了深入的研究和探索。语音合成技术正在经历从管道式

【作者】

：

王文富

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

语音合成声学建模深度学习门控循环混合密度网络长短时记忆网络卷积输出层无监督生成式对抗网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度学习的蓬勃发展极大地推动了语音合成声学建模技术的革新。本文以深度学习技术为理论基础，对语音合成声学建模技术进行了深入的研究和探索。语音合成技术正在经历从管道式框架到端到端框架的转变，不管是管道式语音合成还是端到端语音合成，声学模型都占有举足轻重的作用。本文重点关注管道式语音合成和端到端语音合成两种系统框架下的模型设计与改进，同时探索更为有效的声学模型训练策略。本文沿着声学模型的改进与简化、训练方法的改进与优化和系统框架改进的思路展开研究。主要创新成果如下:　　1.在管道式语音合成框架上，以提高声学建模的精度为研究目标，提出了一种集门控循环网络与混合密度模型于一体的深度混合密度网络，称之为门控循环混合密度网络（Gated Recurrent Mixture Density Network，GRMDN）。GRMDN结合了门控循环网络建模长时依赖性的能力和混合密度模型能完备地描述目标数据的条件概率密度的优势，是一个通用的条件序列生成器。因此，GRMDN很适合应用于序列生成任务，比如本文所研究的声学建模任务。一方面，GRMDN利用门控循环结构的长时建模能力充分捕捉语言学输入的长期依赖性;另一方面，GRMDN利用混合密度模型完备地建模声学特征的多模态属性，生成具有丰富变化性的声学特征。与单一的基线系统相比，基于GRMDN的声学模型能合成自然度更高、变化性更丰富的语音。　　2.在管道式语音合成框架上，以提高声学建模的精度、缓解参数生成时的过度平滑效应为研究目标，提出了一种结合单向长短时记忆(Unidirectional Long-Short Term Memory,ULSTM)和卷积输出层(Convolutional Output Layer，COL)的高性能声学结构，简记为ULSTM-COL。其中卷积输出层采用非对称上采样卷积实现。这种“高性能”体现在以下三个方面:1）建模能力强。单向LSTM与非对称卷积输出层作用互补，建模能力显著超过同样配置的基于单向LSTM和双向LSTM的声学模型;2）缓解语音参数生成时的过度平滑效应。建模时不再需要动态差分特征，因为上采样卷积输出层作为语音参数轨迹生成器能起到很好的参数平滑作用，因此不再需要最大似然参数生成(Maximum Likelihood Parameter Generation，MLPG)平滑算法;3）低延迟。一方面避开了MLPG算法的使用，简化了合成流程;另一方面，单向LSTM和卷积输出层都是单向结构，保证了ULSTM-COL可以方便地应用到低延迟的实时合成系统。实验证明，ULSTM-COL可以显著提高声学模型的性能，合成自然度更高的语音。　　3.在管道式语音合成框架上，提出使用无监督生成式对抗网络(Generative Adversarial Network，GAN)来进一步改善管道式语音合成中的过度平滑问题，分别从对抗语音参数后滤波和对抗声学建模两个方面进行了研究。GAN无需对语音参数的条件分布做任何假设，利用无监督对抗训练的方式驱使模型生成更接近自然分布的语音参数轨迹，从而提高合成的感知自然度。实验主观、客观评价都证明了对抗学习的有效性，相比有监督训练的声学模型具有更好的合成质量。　　4.以端到端语音合成技术为研究目标，提出了一种中文普通话端到端语音合成方法。该方法使用带有关注机制的编码器-解码器框架来实现端到端语音合成系统，端到端系统同时集成了管道式语音合成系统中的韵律预测模型、时长模型和声学模型，隐式地学习输入序列中的韵律模式，不仅能简化现有的管道式语音合成框架，而且能减少对数据标注的依赖。具体地，所提出的端到端模型直接采用中文带调拼音序列作为输入，生成相应的短时傅里叶变换幅度谱序列，最后使用Griffin-Lim算法合成语音。本文所提出的端到端方法在主观评测中可实现均值意见得分(Mean Opinion Score，MOS)3.81，合成自然度超过了内部最佳的管道式语音合成系统。在此基础上，本文进一步研究了多说话人端到端语音合成技术以及说话人自适应技术，所提出的方法不仅可以合成集内每个说话人的音色及说话风格，而且只需要集外说话人的少量数据便能合成可接受质量的语音，提供了一种快速、简便地构建语音合成系统的可能性。

其他文献

蓝宝石光纤高温仪的研究

在双辊铸轧系统中,熔池中钢水温度直接影响钢坯的质量,因此,必须准确快速地测量出熔池中钢水的温度。本文研究的蓝宝石光纤高温仪就是针对测量熔池中钢水的温度而研究的仪表。本文主要工作有：(1)理论分析。以黑体辐射理论为基础,在对东北大学铸轧实验室做大量的现场调研的基础之上,着重完成了比色测温原理的推导。(2)关键技术研究。对蓝宝石光纤物理化学性能的分析说明了应用蓝宝石光纤作为高温探测器的可行性；对黑体腔

学位

蓝宝石光纤光电转换电路C8051F005

面向智能交通的视频车辆检测、跟踪和识别算法研究

本文针对智能交通中车辆监控系统,研究了基于视频的车辆检测、跟踪和识别算法及其应用技术。交通检测与信息采集已经成为智能交通系统中的一项重要课题,运动车辆的自动检测、

学位

灰度相关的帧间差分背景差分高斯混合模型背景更新支持向量机模糊支持向量机

未知动态环境下的多机器人协作围捕研究

随着移动机器人应用技术的不断发展,单个机器人需要完成复杂多变的任务,其有限的能力已不能满足人们的要求,多机器人协作技术成为迫切需要解决的问题。目前,分布式人工智能学

学位

多移动机器人协作围捕碰撞风险行为融合模糊逻辑遗传算法

炼钢-精炼-连铸生产调度与过程监控系统——生产过程仿真系统设计与调度计划仿真优化

在钢铁企业的生产过程中，生产计划与调度的最优化是实现其产品质优价廉、准时交货的重要途径之一，而炼钢—精炼—连铸是钢铁生产的瓶颈工序。科学地制定生产调度计划可以提高大

学位

钢铁企业生产管理计划调度过程监控系统仿真分析

基于特征表示和度量学习的大规模目标检索

随着互联网的快速发展和图像采集设备的日益普及，视频图像数据呈现出爆炸式增长的趋势。对于海量的图像数据，如何高效准确地从中获取与用户查询相关的目标信息，是大规模目标检索

学位

图像处理目标检索特征表示度量学习卷积神经网络

PET固相缩聚过程建模与估计方法研究

系统建模、辨识与估计一直是控制科学与控制工程界研究的热点之一，关于非线性系统的建模与估计理论和实践已经有非常深入的研究，尤其对化工过程大量存在的非线性对象，不少学者和

学位

固相缩聚过程建模工艺优化设计缩聚反应器

基于支持向量机的核函数方法在能源复杂系统中的应用研究

能源是人类赖以生存和发展的物质基础，也是国民经济发展的命脉。随着全球经济危机尤其是能源危机的出现，能源供需预测的研究显得尤为重要。因此，根据历史数据，用基于统计学习理论

学位

支持向量机核函数方法能源复杂系统软件仿真

基于车载LIDAR的三维重建技术研究

随着信息技术的高速发展,场景的三维建模已经广泛的运用于城市国土规划、数字城区、虚拟博物馆、古建文物保护等重要领域。基于车载LIDAR (Light Detection And Ranging)的三

学位

激光雷达点云滤波立面提取三维重建

长时延不确定网络控制系统的保性能控制

网络控制系统NCS(Networked Control Systems),是利用专用或公用数据通信网络代替传统的点对点连接构成的闭环控制系统。网络控制系统打破了传统控制系统在空间物理位置上的

学位

网络控制系统网络诱导时延Lyapunov-Krasovskii函数线性矩阵不等式Markov链不确定性保性能控制锥补线性化

面向移动机器人应用的人工路标关键技术研究

视觉导航具有采用其他传感器导航方式所无法比拟的优点，是目前移动机器人智能导航的主要发展方向。目前，如何实时可靠地提取环境中的视觉信息作为路标仍然是制约移动机器人进行

学位

移动机器

语音合成声学建模技术研究

与本文相关的学术论文