个性化语音合成建模方法的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:ab888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的语音合成多侧重于单一朗读语气的研究,为了进一步提高语音合成系统的个性化表达,促进语音合成系统的应用前景,本文从语音合成韵律模型和声学建模方法入手,针对个性化语音合成研究涉及的韵律风格、口语化表达、音色自适应等方面,分别对基于依存关系的韵律模型、语音合成韵律自适应方法、对话语气韵律建模方法、基于混合隐马尔可夫模型的参数语音合成等内容进行了研究,研究成果对于进一步提高语音合成系统的表现力和个性化表达,促进对语音产生模型更为深入的理解,具有较好的意义。具体来说,本文共取得了如下主要研究成果:   针对普通话连续语流中,相邻音节间在韵律特征上存在着强烈的互相依存关系的特点,本文对语音合成中韵律拼接代价函数给出了新的定义,使之可以精确描述相邻音节在基频曲线上的匹配程度,在此基础上建立了基于依存关系的韵律模型,较好地提高了语音合成输出的自然度。   本文提出了一种与拼接语音合成系统紧密结合的个性化韵律自适应方法,基于一个或多个源说话人的大语料库和一个目标说话人的小语料库,可以为目标说话人构建一个新的韵律模型。该韵律模型不仅具有目标说话人的韵律特征,而且同时还具有源说话人语料库对上下文信息的完备覆盖,从而使合成系统达到对不同说话人说话风格的模拟。   本文在对大量对话语料进行统计、分析的基础上,对对话语气中语气未完成现象进行了建模研究。由于对话语气语速较快和发音方式较随意,对话语气中很多音节没有完成其固有调形,从而引起基频曲线形状的变化。通过对未完成现象的建模,使得韵律模型可以输出具有对话语气韵律特征的基频曲线。   为进行个性化语音合成中音色自适应问题,本文进一步实现了基于混合隐马尔可夫模型的语音合成系统。传统上,造成基于隐马尔可夫模型语音合成系统音质较差的原因来自于训练过程中的时域过平滑和频域过平滑等现象。本文提出了一种混合隐马尔可夫模型的方法来解决这两个问题,有效地提高了系统的表现力和清晰度。
其他文献
睡眠是一项非常重要的生命过程,是人体重要的生理活动,它与人的健康、学习、生活、工作等之间的关系甚为密切,但至今人类对其了解还很少。失眠是一种最为常见的睡眠障碍性疾
基于结构光系统的物体三维轮廓测量技术,由于具有测量速度快、非接触式等好的特性,因而在科学和商业领域得到了广泛的应用。一个基本的结构光系统包括一个相机和一个光栅条纹投
近红外光谱(简称NIRS)作为一种现场、快速、无损、无污染的绿色分析技术,近年来,被广泛应用于石油化工、食品药品、制药等行业。随着精密分析仪器的广泛使用,产生的高维、海量NIRS
随着人机交互技术的发展,越来越多的实际产品中采用了较传统方式而言更为友好的人机交互形式。而语音合成技术,作为人机交互技术中的关键技术之一,已经被广泛的应用到许多嵌入式
从二维图像恢复三维物体可见表面的几何结构(称为三维重建)是计算机视觉的主要目的之一。三维重建的一个关键步骤—图像对应点的确定也是计算机视觉中的一个基本问题。目前国
学位
自20世纪90年代中期开始,非真实感绘制(NPR)逐渐成为计算机视觉和计算机图形学的研究热点之一。   非真实感绘制和传统真实感绘制的研究内容不同,其研究的目标不在于绘制结
当前,开发具有完全自主功能的智能移动机器人尚未成熟,但是通过Internet提供的方便开放的人机交互接口,在机器人的遥操作过程中融入操作者的智能与经验,使移动机器人具备在室内不
人类与灵长类的视皮层目标识别性能远远优于最佳的机器视觉系统。因此,自上个世纪50年代起人们开始关注生物视觉启发的计算机视觉模型的研究。1999年,Riesenhuber和Poggio提出
说话人的地方口音、非母语口音是汉语普通话语音识别系统实现推广应用面临的具有挑战性的问题。云南是一个多民族的省份,大多数民族有自己的语言,少数民族在全省各市县均有分布
文字识别作为模式识别的一个重要应用领域,在过去的几十年中已经取得了非凡的成就。单个字符的识别率非常高,已经达到了实际应用的需要,并被广泛地应用于电脑汉字输入、手机、PD