【摘 要】
:
随着电子计算机的运算速度和存储能力的迅猛发展,语音合成技术已由早期的知识驱动发展到数据驱动阶段,大规模语料库的支持使得合成语音的质量有了明显的改善。与此同时,用户对语
论文部分内容阅读
随着电子计算机的运算速度和存储能力的迅猛发展,语音合成技术已由早期的知识驱动发展到数据驱动阶段,大规模语料库的支持使得合成语音的质量有了明显的改善。与此同时,用户对语音合成系统提出了更高的要求,尤其是多语种、音色可变、富于情感的合成。传统的基于单元挑选的拼接合成由于系统构建周期长、存储消耗大、灵活性差等缺点无法满足多样化合成的需求。在这种背景下,基于统计建模的参数合成逐渐引起人们的重视。统计参数合成通过自动训练的方式进行合成系统构建,需要的人工干预少,并且能深入语音参数层面进行处理,灵活性好,有着很高的理论和实用价值。本文在前人的基础上,对统计参数合成方法进行了深入而系统的研究,在合成前端和后端都做出了改进,并通过实验对新方法的优势及合理性进行了论证。
本文的具体研究工作和研究成果如下:
1、在HTS框架的基础之上,针对中文特点,设计并完成了基于隐马尔可夫模型(HMM)的中文语音合成系统,并进行了若干性能改进。
2、在汉语韵律结构预测方面,深入分析了与汉语韵律变化相关的特征,考察韵律预测任务的特点,在此基础上利用条件随机场(CRF)进行韵律建模,实现了基于条件随机场的韵律结构预测方法。
3、在声学参数建模方面,使用多项式段模型进行语音参数建模,实现了新的基于动态规划的多项式段模型快速切分训练算法,在多项式段模型的框架下,对基频、频谱、时长三种语音参数进行统一建模。
4、在参数生成方面,对基于多项式均值轨迹的语音参数生成算法进行研究,根据模型进行各种语音参数的重建。
5、构建了一个基于多项式段模型的统计参数语音合成系统。
实验结果证明了上述方法的研究价值及有效性。
其他文献
光电跟踪测量系统在天文、空中交通管理、无人机、安全监控系统、自动驾驶系统以及智能机器人等方面都有着广泛的应用。随着科学技术的发展,各个领域对光电跟测量踪系统提出了
三维MIMO-SAR(Multiple-Input Multiple-Output Synthetic Aperture Radar, MIMO-SAR)是指采用多输入多输出(MIMO)技术并具有三维分辨能力的合成孔径雷达(SAR)。它不仅继承了
通常所指的无线局域网WLAN基于IEEE 802.11标准,而VoIP(Voice over IP)是建立在IP网络上的数字化传输技术,它能够利用Internet全球互联的环境,为用户提供便利、廉价的语音服
应用需求推动着高分辨率遥感卫星系统的发展,而不断增多的高分辨率卫星遥感数据又促进了遥感应用的深化。然而,随着卫星遥感图像空间分辨率的不断提高,数据量越来越大,图像的内容
目前,现有的机床与外界通信大多采用比较简单的RS232串行口,这种通信方式的缺点在于通信距离受限、抗干扰能力差、速度慢,无法满足远程控制的需求。一方面嵌入式系统以其功能强
多天线技术是未来无线通信的一项关键技术。其可以应用于不同的无线组网形式,包括点对点通信、上行接入、下行接入、协作通信和认知无线电系统。特别地,由于物理传输的不确定性
为了推动宽带无线接入产业发展,全国信息技术标准化技术委员会成立了宽带无线多媒体标准(BWM)项目组,致力于基于宽带无线接入系统、数字地面电视系统以及因特网的融合的宽带无
星机双基地合成孔径雷达(Spaceborne-Airborne Bistatic SAR, SA-SAR)是以卫星作为发射平台、飞机作为接收平台的双基地SAR系统,该系统是当前雷达成像应用的研究热点,其不仅
目的 探讨床边A-T皮瓣联合Burows楔形皮瓣修复小腿胫前压疮创面的临床疗效.方法 选择2014年3月至2017年8月老年患者小腿前区溃疡型压疮31例,缺损面积1.5cm×3.5cm~3.5cm×5.5c
无人机着陆引导系统是无人机导航系统中不可或缺的一部分,承担着将飞机安全引导到指定着陆点的任务,而其中测距技术的性能将直接决定引导的成败和精度,因此研制适合无人机着