基于状态相关时长模型的HMM可训练汉语语音合成系统研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:chenxiang1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来基于大语料库的拼接合成方法是语音合成中的主流方法,它的最大优势是保持了原始发音人的音质。随着目前语音合成效果的逐步改善,人们对语音合成系统提出了更高的要求——多样化的语音合成,包括不同年龄、性别特征及语气、语速的变化,甚至多种情感表达等。   相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限。并且,在一般的拼接合成系统中,如果想达到合成多变特性语音的要求,必须需要一个很庞大的语音数据库,这就给采集、分类、保存带来了困难。因此,近年来基于隐马尔柯夫模型(Hidden Markov Model,HMM)的可训练语音合成方法被提出并逐渐得到应用。   对于基于HMM的可训练语音合成应用,其特点是基于HMM对语音参数进行建模,然后利用音库数据进行自动训练,并最终形成一个相应的合成系统。与现在的大语料拼接合成相比,它的优势在于:可以在短时间内,基本不需要人干预的情况下自动构建一个语音合成系统,而且整个训练过程基本不依赖于发音人、发音风格以及情感等因素。我们可以通过分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化。   本论文对基于HMM的可训练语音合成方法(Trainable TTS,主要是借鉴NIT的HMM based speech synthesis system。关于NIT,详细介绍参看http://hts.ics.nitech.ac.jp),包括技术框架构建、关键技术改进等方面,进行了深入而系统的研究。具体的工作如下。   首先,在参阅Trainable TTS系统的一系列工作基础上,分析该系统在模型构建及合成的语音上突出的优点,以及不足,及它在参数提取、模型训练、合成阶段的声学参数产生算法和滤波器的选择等诸多方面的优缺点。   其次,本论文基于现有的模型训练方法和参数生成技术,建立了一个完整的基于HMM的可训练语音合成框架,包括一个自动化的训练流程和相应的合成后端。它通过一定的语音数据进行自动训练,快速形成一个基于此语料库的合成参数库。在合成阶段,用户可以根据自己需求,输入待合成的文本文件,此系统在很短的时间内,就能够输出合成的语音。此外,在此框架基础上,本文通过设计和优化上下文相关属性和问题集,进行汉语Trainable TTS系统的训练和构建,对Trainable TTS技术进行效果验证。   最后,我们对Trainable TTS中的时长模型作了相应的分析和改进。首先考虑到汉语语言特点,人们说话时很多时候会出现拖音或突然中止的情况,而现有方法是用高斯分布对时长建模,我们知道,高斯分布围绕峰值点是左右对称结构,显然时长分布存在一些非.高斯特性,那么简单的用高斯分布就不能很好的估测时长。另外,Trainable TTS中忽略了不同状态时长之间的影响,实际上,在汉语语言习惯中,说话人前后音节的速度有着很大的关联性,易知,前后两个状态的时长,一个很长而另一个很短的概率很小。基于以上分析,我们把相邻状态的时长影响作为主要考虑因素来确定状态时长,挖掘状态时长与其前一状态时长的关系。为此,我们提出了状态相关时长模型作为改进,并提出一改进的前向.后向算法来估测时长模型参数。我们将这一改进方法应用到TrainableTTS系统的实验中,从最终合成效果来看,基于改进后时长模型的Trainable TTS系统节奏感变强,提高了合成语音的自然度。客观评测结果显示,改进后的系统比原系统的平均MOS提升了6.46%。
其他文献
为了实现从“农田到餐桌”的全过程食品安全监控,需要建设农产品质量追踪体系,目的在于明确农产品的身份,建立农产品质量档案,一旦发现有质量问题的农产品,可以追踪到问题发生的环
电话语音环境下说话人识别技术的研究面临许多亟待解决的问题,包括语音环境的通道鲁棒性、说话人差异和系统判决拒识等等。近年来,针对概率统计模型和区分训练框架,研究人员进行
对LF炉钢水温度的准确预测,是合理组织生产、提高钢水质量、降低炼钢成本、实现钢水温度控制的重要前提。而在LF炉冶炼过程中,预测对象为非线性系统,难以建立准确的机理模型,
20世纪90年代,计算机技术、通信技术和集成电路技术飞速发展,并且相互融合,导致了嵌入式技术及其应用的生产和迅猛发展,对全球包括我国的工业、农业、科技、军事、教育、文化
水资源保护与合理利用,涉及当今世界所面临的“人口、资源、环境”三大问题,而成为举世瞩目的重大科学问题之一。我国地大物博、人口众多,随着国民经济建设速度和城市化进程的加
贴片机作为SMT生产线中最关键的设备之一,决定SMT生产线的效率和精度。全自动贴片机的关键技术是采用先进的视觉检测和定位技术,配合多贴片头和多吸嘴等机械装置达到快速准确贴
本文主要研究了一类具有扰动输入的不确定性非线性系统的输出调节问题,给出了该类系统在最差的不确定性参数和扰动输入情况下系统输出调节的极限性能。所讨论的非线性系统是可
随着现代信息技术的迅猛发展,对供电系统的输出电压质量和整个供电系统的可靠性提出了越来越高的要求。与单台逆变器相比,多台逆变器并联运行可实现大容量和冗余供电,提高了供电
本文对Takagi-Sugeno模糊神经系统的时延动力学进行分析。通过构造新的Lyapunov-Krasovskii泛函,对于T-S模糊神经系统在同时具有离散时延和分布时延的情况下,给出了全局渐近稳
随着工业生产系统规模的不断扩大,控制规律越来越复杂,要求工业控制系统向着分散化、网络化、智能化和管控一体化的方向发展。工业以太网继承了通用以太网协议统一、成本低和通