论文部分内容阅读
随着计算机技术的进步和其他相关学科的发展,在过去的几十年间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。TTS (Text-To-Speech)中文语音合成技术,又称为文语转换技术,是将文本转换成为语音的一项核心CTI技术。可以通过输入文本,让计算机像人一样说出具有高自然度和智能的语音。这项技术已经被广泛应用于电信服务,嵌入式移动设备和娱乐增值服务等各个方面。对合成系统输出语音音质的评价是多方面的,但是主要体现在输出语音的可懂度和自然度上。当前,TTS系统的输出语音的可懂度主要体现在前端文本处理的模块上,现在技术已经达到了不错的水平,但是在处理中文文本的非标准词上还有所欠缺,尤其是阿拉伯数字串,各种非标准符号等。而语音的自然度则重点体现在韵律结构预测模块中,当前中文语音合成输出语音的整体自然度方面还有待提高,其根本问题就是不能对自然语流中的韵律进行有效的模拟。韵律处理的研究主要有以下几个方面:韵律预测,韵律规则,韵律描述和韵律建模。本文主要研究了中文语音合成系统前端的文本正则化模块和韵律结构预测模块,希望通过对以上两个模块的研究与改进来提高合成语音的可懂度和自然度。TTS系统的输入是无限制的文本,从文本中只确定读音是远远不够的。为了提高语音的可懂度和自然度,还需要从文本中提取更多的与文本和韵律相关的信息。研究表明,TTS系统如果能够对各种非标准词作出正确的识别,将对合成语音的可懂度有很大的帮助;同时,引入韵律层级结构可以显著提高合成语音的质量,特别是合成语音的自然度。如何提高文本正则化和韵律结构预测的正确率是本文研究的重点。本文从中文语言的特点出发,分析和研究了中文文本中经常出现的非标准词,对其中的日期、电话号码、机构名称以及网络用语等进行了分析归类,对这些读音不能通过正常拼音规则得到的非标准词的读音生成方式进行了重点研究。对传统的中文文本正则化的方法进行了总数和比较,指出了传统中文文本正则化方法的优缺点,然后重点研究了基于最大熵模型的文本正则化方法,并应用于实际的中文语音合成系统中。同时,本文从汉语的声学特点和韵律特征出发,分析和研究了汉语的韵律特征、停顿、重音以及韵律边界之间的关系,分析并对比了汉语韵律层级结构,同时分析了韵律边界的声学特征。对传统的韵律结构预测的方法进行了综述和比较,指出传统韵律结构预测方法的优缺点,然后重点研究了基于条件随机场模型的韵律结构预测方法,并应用于实际的中文语音合成系统中。在基于最大熵模型的韵律结构预测系统的研究中,在理论上,本文详细阐述了最大熵模型模型的定义,条件分布以及参数估计。在应用上,本文重点研究了最大熵模型的特征模板,并讨论了窗长选取和动态特征的作用等问题。在基于条件随机场的韵律结构预测系统的研究中,理论上,本文详细阐述了条件随机场的定义,条件分布以及参数估计。在应用上,本文重点研究了条件随机场的特征模板,并讨论了窗长的选取,复合特征的作用等问题。并与传统的文本正则化和韵律结构预测方法进行了性能上比较和分析,在性能上有显著的提高。