具有表现力的语音合成中的若干问题研究

来源 :诺基亚研究中心 北京邮电大学 | 被引量 : 0次 | 上传用户:beehxf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机等移动设备技术平台的发展和普及,为语音技术的应用提供的新的发展平台和契机,语音技术在移动手持设备平台的应用发展,也必将推动移动设备更加智能化,并为更多适用人群所接受。在语音合成中,具有表现力的语音合成技术是当前研究的重点和热点。   本文围绕加强普通话合成语音表现力的这一主题,从声调实现、轻重模式和节奏计算等方面展开了深入的研究。   首先,以大规模语料的广州普通话、广州话和标准普通话为基础,研究分析了这三类语音之间的声调实现、轻重模式和节奏模式的基本规律和比较特性。归纳出来一些基本的语音学规律并进行了具体的解释。   传统的节奏使感知经验的概念,探索可计算的节奏度量指标是最新的研究方向。本文根据普通话是声调语言的基本特性,把原来仅仅基于时长特征的节奏度量指标推广到基于音高FO特征,扩充了度量的维度。利用大规模语料库,对这些节奏度量指标进行了基于主成分分析方法的相对重要性评估。最后根据评估的结果对广州、上海、厦门、重庆等地域口音的普通话和标准普通话进行了节奏的比较研究,得到他们之间在节奏方面的相对相似关系。   最后,在大量语音比较研究的基础上,本文提出了基于决策树和聚类算法的节奏模板预测方案,为具有表现力的语音合成提供了韵律节奏参数的校准提供了初步的解决办法。
其他文献
LDPC码是一类具有稀疏校验矩阵的线性分组码,它凭借着其优秀的逼近Shannon限的性能从上世纪90年代以来就一直备受众多学者的关注,目前LDPC码已经成为了继Turbo码之后纠错编码领
MIMO雷达主要是利用空间分集和发射信号的分集技术,采用多个发射天线同时发射相互正交的波形,同时使用多个接收天线接收并处理目标回波信号。发射波形的有效分离可以从以下两个
嵌入式系统是以应用为中心,以计算机技术为基础,并且软硬件可裁剪,适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统。目前,嵌入式系统已经广泛渗透到
图像分辨率是成像系统对图像细节分辨能力的一种度量,也是图像中目标细微程度的指标,它表示景物信息的详细程度。由于高分辨率图像能提供有关目标更多的细节信息,人们对高分辨率
网络化和数字化技术推动着视频监控技术的应用领域迅速扩展,在高速公路领域的应用也倍受关注。视频监控技术已经被极大的应用到高速公路的管理中,但是如何组建有效的联网监控
JPEG2000作为JPEG之后的新一代图像压缩国际标准,是由国际标准化组织ISO和国际电信标准化联盟ITU-T于2001年联合颁布的。与JPEG相比,JPEG2000有着更加优越的编码质量。但是,J
移动Ad hoc网络(MANET)具有网络自组特性,能够在任何地方组织构建,不需要依赖固定设立的基础设施。它是由一组带有无线收发装置、兼有主机和路由器功能的移动节点组成的一个多跳
GPS(全球定位系统)是新一代的导航定位系统,它向广大用户提供精确的定时和定位服务。高动态给GPS信号带来较高的多普勒频移,使伪随机码产生动态时延,很容易造成载波跟踪环和
无线技术迅速发展,蜂窝网络就是由一些无线电蜂窝组成的无线电网络。所有的蜂窝都由一个叫做蜂窝站点或者基站的固定的交换中心为其提供服务。这些蜂窝将覆盖不同的地域来提
磁记录存储设备在我们同常生活和工作中有着不可或缺的作用。本文对磁记录信道中的一些关键技术进行了研究,以进一步提高磁记录设备的读取速率及可靠性。本文介绍了广泛应用的