可训练语音合成中的谱参数生成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xiaotang111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着目前语音合成效果的逐步改善,用户对语音合成系统提出了更高的要求,体现在合成系统的构建复杂度以及系统的音质。在这种背景下,一种能够在短时间内通过自动训练的方式进行合成系统构建,而且能够获取比较好的音质的语音合成系统,有着比较高的理论研究及使用价值。对此,本论文在基于HMM的可训练语音合成(TrainableTTS)基础上,提出了一种能够在不大量增加系统负担的前提下有效的提高合成语音音质的方法。本论文具体的研究工作和研究成果如下: 首先,对现有成熟的TrainableTTS系统进行一个比较系统全面的介绍,介绍其中的基础理论:隐马尔科夫模型(HMM)以及系统实现的一些关键技术,这为下一阶段的工作提供了一个高效的平台系统。 其次,基于上面介绍的TrainableTTS系统框架,针对此系统的合成语音中的塞音比较模糊的现象进行分析,并且提出了用自然的塞音段频谱参数来替换对应模型预测的频谱参数来进行参数生成,最后,结合自然的塞音波形和自然的塞音频谱,用频谱替换和波形替换方法实现了一个塞音清晰化的系统。 最后,基于上面的自然塞音频谱参数替换的想法,提出了结合自然样本单元挑选与参数生成相结合的方法来提高合成语音的音质,通过相关的试验可以证明这种方法能有效的提高合成语音的音质;通过对频谱参数进行压缩,可以进一步的减少参数的存储量,使其在受限领域的应用成为可能;进一步,为了完善此方法下的参数生成算法,提出了新的参数生成算法,即把自然样本单元当作一个模型约束来控制参数生成的过程;最后,验证了此方法在英文音库下的效果。
其他文献
迅速发展的无线通信技术和集成电子技术使得无线传感器网络得以不断的发展,无线传感器网络是由大量低成本低功耗的传感器节点部署在监测区域中,对监测区域的监测环境进行数据
多输入多输出(MIMO)技术是高速无线通信领域内的一个重要进步,与传统的单输入单输出(SISO)系统相比,MIMO最显著的优点是能够提供极大的系统容量,且该系统容量会随着收发天线
本论文选题来自国家科技部2003年“国际科技合作重点项目计划”中的“阿尔法磁谱仪(AMS)轨迹探测器热控制系统的研制”项目。其中,AMS是指由15个国家的56个研究机构合作承担的
本文针对无源定位技术的广泛应用,介绍了无源定位系统的历史和现状,论述了无源定位系统的基本技术,重点讨论了其中的信号检测技术和定位算法,不但详细论述了其原理和算法,也给出了
并行组合扩频通信技术是在软扩频通信技术基础上发展而来的,不仅具有抗干扰性能强、隐蔽性好等优点,更具有频带利用率高,通信效率高等优点,适用于高速扩频通信、扩频通信自组
目前,在自动控制领域使用的微控制器主流仍然为8位单片机,但是,随着需求的发展,要求其实现越来越复杂的应用,同时成本还要保持在较低的水平,于是很多发展型、增强型的单片机出现了
NGN作为未来电信网络的发展方向,自其概念诞生以来,就一直在影响和直接改变着传统电信的变革,运营商将它作为转型的推动力,通信企业对NGN的研发投入也越来越多。NGN是以软交
本论文首先介绍并讨论了数字电视传输标准TDS-OFDM的实现原理,对其中的一些关键问题做了详细的分析,在此基础上提出了一种基于FPGA的窄带LDPC解码-误码测试平台设计方案,即利
高速发展的互联网使信息安全技术变得越来越重要,访问控制是信息安全的一个重要部分。本文系统阐述了访问控制的几种不同模型和各自的特点,着重分析了目前主流的访问控制模型—
图像检索技术在网络大发展及人们对读图的强烈渴望的背景下成为学术界研究的一个热点。建立图像检索系统的关键技术包括:图像采集、图像及其相关信息的自动归档技术、建立完备