论文部分内容阅读
随着计算机技术和信息技术的飞速发展,人机交互方式发生了重大的变化,应运而生的语音合成技术是将计算机自己产生的或从外部输入的文字、符号、数字等信息转换成自然流畅的语音信号输出,这种技术又称文语转换技术(Text to Speech,简称TTS)。早期的TTS系统多采用参数合成方法,该方法在理论上相对比较成熟,易于实现,但实际合成的连续语音总是不够清晰、自然。近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。由于这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。但是,目前在拼接式语音合成中所采用的信号处理技术仅仅适合于对原始基元的基频、时长、能量等韵律特性进行修改,而对于拼接基元的频谱特性则无法进行适当的修改来满足相应的语音发声差异的变化。由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元,韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使计算机能自动发现和找出所需的语音单元,保证最高的合成语句的自然度等等。在语音合成领域研究者们最关心的问题之一依旧是如何提高合成语音的自然度。现有语音合成的研究方法能在一定程度上提高语音的合成度,但还不能得到人们理想的合成效果。影响合成语音质量的一个很重要因素在于目前使用的韵律规则不够完善。 本文以当前语音合成技术的发展方向为研究的出发点,首先优化了韵律参数,并将其应用到关联规则对韵律参数进行规则提取的方法中,提出采用优化韵律参数后的规则提取过程,并对原有的Apriori算法进行改进而获得更适合语音合成的ODApriori算法,通过该算法可将原有Apriori算法得到的韵律规则进一步细分,得到更多研究者感兴趣的规则。其次语音合成技术的应用不可能总是建立在无限大的语音数据库基础上,为了将数据库控制在合适的范围内,提出了一种使语音特性尽可能体现的数据库设计方法。该方法利用韵律信息进行语音合成,基于这种方法合成出来的语音与完全基于规则的方法合成出来的语音相比,通常具有更高的语音质量。最后,利用微软语音开发包实现了中英文双语文语转换系统,向实现多语种合成系统的方向迈出了一步。