基于时长相关状态转移HMM的汉语语音合成方法的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:cjrck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音合成技术的发展,用户对语音合成效果也提出了更高的要求,尤其是多样化语音合成方面的要求。虽然现在的基于大语料库的波形拼接合成系统的效果不错,但是音库构建周期太长以及合成系统的可扩展性太差等缺陷都限制了大语料库合成系统在多样化语音合成方面的应用。而近年来提出的基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音合成系统由于可以在短时间内,基本不需要人工干预的情况下自动构建一个合成系统,并且通过适当的调整HMM参数可以灵活的改变嗓音特性、发音风格以及情感。因此具有很高的理论研究意义和应用价值。   对此,本文对NIT的HTS(HMM-based Speech Synthesis System,HTS)系统的技术框架、关键技术改进等方面进行了深入而系统的研究。本论文的主要研究工作如下:   1.本文基于现有的模型训练方法和参数生成技术,搭建了一个完整的基于HMM的语音合成框架,包括一个自动化的训练流程和相应的合成后端。它可以根据用户的需求,通过一定的语音数据进行自动训练,快速形成一个相应的合成系统。并且此框架的基础上,构建了一个中文的HTS系统。用户可以输入任意中文文本,此系统能够实时的输出合成语音。   2.由于传统的基于HMM的语音合成系统存在模型在训练阶段和合成阶段不一致的问题,因此NIT的研究者们将一个含有精确的时长概率分布的HMM-HSMM,引入系统的训练阶段和合成阶段,提出了基于HSMM的语音合成系统。本文构建了一个的基于HSMM的中文语音合成系统,验证了此种方法的有效性。   3.针对在基于HSMM的语音合成系统中,虽然HSMM模型的每个状态有精确的时长概率分布,但是状态转移概率却是时长无关的不一致问题,而且考虑到在模型训练中,大量的统计操作丢失了太多的细节信息,特别是时域变化信息。我们对HSMM模型进行改进,引入时长相关的状态转移概率,并提出改进的前向-后向算法,重新推导了参数重估公式,构建了一个基于DDHSMM(Duration-Dependent HSMM)的语音合成系统。使得合成语音的音质有所提高,节奏感更强。
其他文献
随着图像在我们生活中越来越重要的作用,使得图像处理技术也快速的发展。目前数字图像处理科学已经成为工程学、计算机科学、信息科学、统计学、物理、化学、生物学、医学甚至
小型无人直升机有着垂直起降、悬停、巡航以及快速转变航向等特性,使得它成为一种理想的无人飞行器。随着微电子技术和控制技术的不断发展,小型无人直升机在诸如现场监控、搜寻
导弹模拟器是导弹装备系统的重要组成部分,是针对系列武器系统研制的模拟、测试系统,主要用来检测、判定发射装置等其它地面武器系统处于发射状态时为导弹发射所提供的信号是否
离子迁移谱探测器是一种高灵敏度快速探测仪器,可广泛应用于化学毒剂、毒品和爆炸物的现场快速痕量监测等领域。在离子迁移谱探测仪器研制中,实现对离子迁移谱信号实时采集、分
随着图像处理技术越来越广泛的应用,图像增强作为图像处理领域中一项基本而重要的技术,得到了较大的发展。当前用于图像增强的主要方法中,中值滤波对脉冲噪声有较好的抑制效果,具
本课题基于地区电力需量反应中的直接负载控制机制,提出了以电力负荷卸载为目标的建筑物空调系统冷水机组控制法则。在城市地区的空调冷水机组卸载中,若用户以手动的方式进行电力卸载,不易将系统调整至负荷期望值,并且容易造成机电人员在计算分配卸载的麻烦。考虑到实际控制中的硬件条件,需要找到一种非线性规划的数学方法,根据各空调冷水机组不同的性能,自动地分配每一台空调主机的卸载量,使得空调主机群的冷冻能力总合发挥
道路交通信息采集在智能交通系统中,担负着提供准确可靠的信息源以使整个智能交通系统得以顺利准确运行的重任。毫米波雷达交通检测器作为获取路面信息的一种方式,因其特有的优
无线传感器网络具有自组织、快速展开、抗毁性强等特点,在军事、环境检测、医疗健康、工业控制等方面有着十分广阔的应用前景。近几年来,随着无线通信、集成电路、传感器及微电
在大型投弹试验中,迫切需要能够全面生动地显示制导炸弹的动态飞行过程以及姿态,速度等信息。飞行过程的可视化不仅能实时地显示制导炸弹的飞行情况,而且可以给予作战系统以
电磁轨道炮是一种新概念武器,设计开发电磁轨道炮仿真系统是为了分析电磁轨道炮多方面的性能和特点。对电磁轨道炮仿真系统运行过程进行监控,以多种形式呈现仿真数据的变化情况