基于隐马尔科夫模型的语音合成技术研究

被引量 : 0次 | 上传用户:sonicff8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着目前语音合成效果的逐步改善,用户对语音合成系统提出了更高的要求,尤其是多样化语音合成方面的需求。在这种背景下,一种能够在短时间内通过自动训练的方式进行合成系统构建,从而满足用户多样化需求的语音合成技术,有着很高的理论研究及使用价值。对此,本论文在基于HMM的可训练语音合成(Trainable TTS)方面,包括技术框架构建、关键技术改进以及相关技术应用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下。 首先,本论文对基于隐马尔科夫(HMM)的自动切分技术进行分析和改进。通过分析HMM训练流程中采用的最大似然准则的(ML)训练算法与自动切分目标的不匹配问题,本文提出一种基于切分误差最小化准则(MSGE)的区分性训练算法。在该算法中,首先通过引入一个新的切分误差度量来定义切分误差函数,然后基于一般化的统计梯度下降算法(GPD)对模型参数进行优化,从而达到切分误差最小化的目的。基于HMM的自动切分技术的分析和改进工作,为本文后续进行Trainable TTS的深入研究奠定一定的基础。 其次,本论文基于现有的模型训练和参数生成技术,建立了一个完整的Trainable TTS技术框架,包括一个自动化的训练流程和相应的合成后端。它可以根据用户的需求,通过输入一定的语音数据进行自动训练,并快速形成一个相应的合成系统。此外,在此框架基础上,本文通过设计和优化中文上下文相关属性和问题集,进行了中文Trainable TTS系统的训练和构建,对Trainable TTS技术进行效果验证。 第三,基于前面构建的Trainable TTS技术框架,本文对Trainable TTS技术分别进行几个方面的改进。首先在谱参数建模方面,通过对Mel-cepstral(MCEP)和线谱对(LSP)参数的特点和建模效果分析,并考虑到LSP参数与共振峰之间的对应关系,最终结合LSP和其相邻阶差分DAL参数进行谱参数建模。其次,对于韵律节奏感不强的问题,本文在状态时长模型的基础上加入了基于声韵母单元的时长模型,并在合成中对两种时长模型进行加权来进行时长预测。 此外,针对现在模型训练流程中采用的最大似然(ML)准则与合成目标的不匹配问题,本文提出了一种基于最小生成误差(MGE)准则的HMM训练算法。在得到结果验证后,本文对MGE准则进行一定的简化,并通过设计合理的分裂问题选择策略,将该准则应用到上下文相关模型的聚类中。最后,在上述模型训练和聚类算法的改进基础上,本文对整个Trainable TTS的训练流程进行重
其他文献
近几年,企业信息化、电子商务、电子政务呈现出集成利用网络资源、异地处理、跨网协作的特点,信息安全技术受到人们普遍关注。身份鉴别作为各类安全应用的第一道防线,传统的
随着机械工业的不断发展,对产品的品质和个性要求就越来越高,所以近年来挤压铸造这种先进的加工工艺已被广泛的应用和发展。模具的标准化状况能直接体现出模具技术的发展水平
<正>桔梗为常用的止咳平喘药,现代药理研究表明,该药主要含桔梗皂甙,具有袪痰,镇咳解热,抗炎,抗过敏,镇痛,抑制胃液分泌,抗消化性溃疡的作用。当支气管分泌物增多时,故有袪痰
自美国学者沃伦和布兰代斯于1890年在《哈佛法学评论》上发表《论隐私权》一文,隐私和隐私权便开始成为具有严格意义的法学概念并不断被研究。二十一世纪是网络的时代、信息
农民专业合作社的发展涉及到合作社参与主体农民自身的问题,以江西省为个案,结合300户实地调查数据,探讨农户对农民参与专业合作社的影响因素,并构建Logistic回归模型,对农户
采用文献资料法、问卷调查法和数理统计法等,对沈阳市普通中学课余田径训练现状进行调查与研究,结果发现:项目设置、学生自身因素、教师水平、亲友支持、学校体育环境等是影
商业品牌的翻译已成为公司形象战略的重要组成部分,商业品牌翻译对于市场进入及销售策略起着与产品质量同等的决定性作用。一个知名的商业品牌要走向国际市场、创立自己特有
本文以管理咨询的视角,从企业战略的高度和打造企业核心竞争力的角度,论述莱芜钢铁股份有限公司CRM模式。 首先,介绍研究背景、目的和意义。中国钢铁企业面临着国内外市场的
随着移动通信、信号处理、IC设计等相关技术的进步,手机功能单一已成为3G发展的瓶颈之一。本文进行了手机录音功能的研究与实现。结合所学理论知识,文中分析了GSM手机的硬件组
《大清律例》是清朝颁行的最重要的刑事法典,其中有许多针对回族的法律条文。本文通过对该刑事法典中的回族条款进行梳理、溯源、比照、分析,来研究清朝对回族的立法。得出《大