个性化语音合成建模方法的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：ab888

【摘要】

：

传统的语音合成多侧重于单一朗读语气的研究，为了进一步提高语音合成系统的个性化表达，促进语音合成系统的应用前景，本文从语音合成韵律模型和声学建模方法入手，针对个性化语音合

【作者】

：

于剑

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2008年期

【关键词】

：

语音合成韵律建模隐马尔可夫模型对话语气韵律自适应音色自适应

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的语音合成多侧重于单一朗读语气的研究，为了进一步提高语音合成系统的个性化表达，促进语音合成系统的应用前景，本文从语音合成韵律模型和声学建模方法入手，针对个性化语音合成研究涉及的韵律风格、口语化表达、音色自适应等方面，分别对基于依存关系的韵律模型、语音合成韵律自适应方法、对话语气韵律建模方法、基于混合隐马尔可夫模型的参数语音合成等内容进行了研究，研究成果对于进一步提高语音合成系统的表现力和个性化表达，促进对语音产生模型更为深入的理解，具有较好的意义。具体来说，本文共取得了如下主要研究成果：　　针对普通话连续语流中，相邻音节间在韵律特征上存在着强烈的互相依存关系的特点，本文对语音合成中韵律拼接代价函数给出了新的定义，使之可以精确描述相邻音节在基频曲线上的匹配程度，在此基础上建立了基于依存关系的韵律模型，较好地提高了语音合成输出的自然度。　　本文提出了一种与拼接语音合成系统紧密结合的个性化韵律自适应方法，基于一个或多个源说话人的大语料库和一个目标说话人的小语料库，可以为目标说话人构建一个新的韵律模型。该韵律模型不仅具有目标说话人的韵律特征，而且同时还具有源说话人语料库对上下文信息的完备覆盖，从而使合成系统达到对不同说话人说话风格的模拟。　　本文在对大量对话语料进行统计、分析的基础上，对对话语气中语气未完成现象进行了建模研究。由于对话语气语速较快和发音方式较随意，对话语气中很多音节没有完成其固有调形，从而引起基频曲线形状的变化。通过对未完成现象的建模，使得韵律模型可以输出具有对话语气韵律特征的基频曲线。　　为进行个性化语音合成中音色自适应问题，本文进一步实现了基于混合隐马尔可夫模型的语音合成系统。传统上，造成基于隐马尔可夫模型语音合成系统音质较差的原因来自于训练过程中的时域过平滑和频域过平滑等现象。本文提出了一种混合隐马尔可夫模型的方法来解决这两个问题，有效地提高了系统的表现力和清晰度。

其他文献

脑电节律提取新方法及睡眠自动分阶研究

睡眠是一项非常重要的生命过程,是人体重要的生理活动,它与人的健康、学习、生活、工作等之间的关系甚为密切,但至今人类对其了解还很少。失眠是一种最为常见的睡眠障碍性疾

学位

脑电信号DB4小波提升算法节律提取Hilbert-Huang变换睡眠分阶

结构光系统标定方法研究

基于结构光系统的物体三维轮廓测量技术，由于具有测量速度快、非接触式等好的特性，因而在科学和商业领域得到了广泛的应用。一个基本的结构光系统包括一个相机和一个光栅条纹投

学位

三维轮廓测量结构光系统便携式结构光系统相机标定投影仪标定相位移动算法模块补偿算法

近红外光谱分析的CPU-GPU协同计算方法研究

近红外光谱（简称NIRS）作为一种现场、快速、无损、无污染的绿色分析技术，近年来，被广泛应用于石油化工、食品药品、制药等行业。随着精密分析仪器的广泛使用，产生的高维、海量NIRS

学位

近红外光谱CPU-GPU协同计算任务划分均衡负载动态调度

嵌入式中英文双语语音合成系统

随着人机交互技术的发展，越来越多的实际产品中采用了较传统方式而言更为友好的人机交互形式。而语音合成技术，作为人机交互技术中的关键技术之一，已经被广泛的应用到许多嵌入式

学位

中英文双语语音合成嵌入式系统音库压缩中英文融合人机交互

基于多鱼眼相机的三维重建

从二维图像恢复三维物体可见表面的几何结构(称为三维重建)是计算机视觉的主要目的之一。三维重建的一个关键步骤—图像对应点的确定也是计算机视觉中的一个基本问题。目前国

学位

鱼眼相机

基于计算机视觉理论和方法的数字艺术

自20世纪90年代中期开始，非真实感绘制(NPR)逐渐成为计算机视觉和计算机图形学的研究热点之一。　　非真实感绘制和传统真实感绘制的研究内容不同，其研究的目标不在于绘制结

学位

非真实感绘制图分割颜色转换主基元图方向场绘制系统计算机视觉

基于Internet的全方位移动机械手遥操作系统的实现

当前，开发具有完全自主功能的智能移动机器人尚未成熟，但是通过Internet提供的方便开放的人机交互接口，在机器人的遥操作过程中融入操作者的智能与经验，使移动机器人具备在室内不

学位

全方位移动机械手客户服务器遥操作系统人机交互接口

基于SMF模型的生物启发影像特征分类

人类与灵长类的视皮层目标识别性能远远优于最佳的机器视觉系统。因此，自上个世纪50年代起人们开始关注生物视觉启发的计算机视觉模型的研究。1999年，Riesenhuber和Poggio提出

学位

标准模型旋转不变性尺度不变性仿射不变性纹理与目标分类

基于发音词典自适应的非母语口音汉语普通话语音识别

说话人的地方口音、非母语口音是汉语普通话语音识别系统实现推广应用面临的具有挑战性的问题。云南是一个多民族的省份，大多数民族有自己的语言，少数民族在全省各市县均有分布

学位

语音识别少数民族汉语普通话非母语口音发音词典自适应

联机手写日文字符串识别

文字识别作为模式识别的一个重要应用领域，在过去的几十年中已经取得了非凡的成就。单个字符的识别率非常高，已经达到了实际应用的需要，并被广泛地应用于电脑汉字输入、手机、PD

学位

字符串识别几何上下文字符同步搜索时间同步搜索置信度转换文字识别

个性化语音合成建模方法的研究

与本文相关的学术论文