融合发音运动特征的统计参数语音合成技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:asdf20091234567889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的进步,语音合成技术也日趋成熟。在几种主流的语音合成技术中,统计参数语音合成(Statistical Parametric Speech Synthesis)拥有可自动快速构建、小型化灵活度高等优点而被广泛采用。而作为这个领域的一个新兴的热点方向,融合声学参数与发音运动参数的建模与合成技术通过引入和语音产生机理更加紧密相关的发音运动参数,对原有的声学模型结构进行改进,实现了两种参数的联合建模与生成。本文对上述技术进行了系统的介绍,并为优化发音运动参数的生成效果进行了深入的研究。整篇文章的结构安排如下:   论文第一章概括地论述了本文的研究背景。先把几十年来语音合成技术从无到有的发展情况进行了介绍,再简要地分析了当前几种常见的语音合成方法。   论文第二章介绍目前广泛常用的可训练语音合成技术(Trainable TTS)的基本流程框架,以及在此基础上形成的融合声学参数与发音运动参数的建模与合成技术,为本文在此项技术上的改进工作进行铺垫。   论文第三章主要介绍我们为了优化融合声学参数与发音运动参数的联合建模与生成系统在合成发音运动参数方面的表现,而提出的一种基于最小生成误差(Minimum Generation Error,MGE)准则的声学-发音运动参数联合模型训练优化方法。在该方法中,我们首先定义生成的发音运动参数与对应的自然发音运动参数之间的欧氏距离为生成误差,然后在最小化生成误差的目标下,采用梯度下降算法(GPD)同时对模型中发音运动参数的均值和方差以及声学参数的均值和方差4类参数进行优化,以达到优化发音运动参数合成效果的目的。实验证明,我们的优化方法可以明显提高合成的发音运动参数与自然参数的接近程度。   论文第四章介绍了我们对于声学参数与发音运动参数映射关系的一系列研究工作,这部分工作仍然基于融合声学参数与发音运动参数的联合建模与生成系统。我们首先对表征声学参数与发音运动参数映射关系的转换矩阵进行了多方面的研究,包括对模型训练中转换矩阵绑定类数设置的优化、直接基于MGE准则对模型中的转换矩阵进行更新、以及通过对转换矩阵的优化研究发音运动参数各维相关性等工作。另外,在本章的最后一节还将介绍我们针对声学参数与发音运动映射关系而制作的多功能演示系统。
其他文献
多媒体监控系统可以实时、真实、形象的反映监控现场,逐步成为现代化检测、控制的重要技术手段之一。监控系统的一个主要热点就是3G无线网络监控。该系统以现代网络为平台,集
众所周知,图像有着强大的信息搭载量,而随着科技的发展,一系列依赖于图像进行工作的高科技产品应运而生,从而促进了图像处理技术的蓬勃发展。图像目标分类作为图像处理、人工
无线移动自组织网络是由一组带有无线收发装置的节点所组成的通信网络。组成网络的节点同时具有用户终端和路由器的功能,可以在网络中任意移动,自由地选择加入或退出网络。节
未来的无线移动通信网络(5G)将支持海量的移动用户和终端设备的接入,满足超高带宽、超密集站点、超高大容量传输、低时延的用户体验要求,需要更加丰富和多样化的服务和保障高
在无线网络中,视频已经成为一个重要的应用。根据近年来关于无线网络的测量研究,移动网络中的视频流量已经占据了一半以上的数据流量,并且还会持续增加。与此同时,无线网络正
随着信息时代的迅猛发展,用户业务需求的急剧膨胀,高速光纤通信技术备受青睐,这使得作为光纤通信系统的关键器件之一的光调制器也面临更高的要求。有机电光聚合物材料作为一
实时视频通信技术在未来生活中有着重要的应用,如视频会议、远程教育、可视电话、视频点播等。在实时多媒体通信应用中,应用层组播传输是关键技术之一。应用层组播的优势在于
车牌识别技术是智能交通系统中的关键技术,而车牌的定位与校正又是车牌识别技术的主要步骤之一,复杂情况下车牌的定位与校正更是其中的难点。本文在介绍复杂情况下车牌识别的
随着遥感测绘技术的发展,利用航空拍摄的光学图像实现对地观测在国民经济建设和国防建设中的作用越来越大,该领域已成为国际上的研究热点,各国相继发展自己的高分辨航空拍摄
Windows Bootkit作为目前最前沿的Windows Rootkit技术,把寄宿地由传统的操作系统磁盘文件扩展到了硬件BIOS芯片、硬盘MBR等位置,同时将自身的启动提前到了与Windows系统内核