论文部分内容阅读
近年来,由于计算机技术、多媒体技术和信息技术的发展,语音技术迅猛发展并取得了很大进步.为获得较好的人机交互环境,对TTS技术的研究引发空前的兴趣并得到广泛的应用.TTS汉语文本到语音的转换是指通过软件和硬件将汉语文本或字串转换为汉语输出语音.目前有常用的两种TTS合成技术--基于规则合成和波形拼接合成,本文重点介绍波形拼接技术---PSOLA算法.PSOLA算法可以在保持语音自然度的情况下通过改变基频和时长从而改变给定信号的韵律和幅度生成语音语料.TTS系统有三大模块--文本处理、韵律分析和语音合成,文本处理和韵律分析主要是提取语音合成所利用的各种韵律控制参数,如合成语音韵律短语的结构和音节之间的韵律信息等.这些参数受韵律实现策略和语言学韵律规则的影响,对语音合成自然度起关键作用.目前由于缺乏比较好的韵律处理算法,精确提取韵律参数比较困难,合成效果较差,所以目前的研究主要集中在提高合成语音的自然度.利用人工神经网络优良性能进行韵律处理可提高语音的自然度.由于汉语是不同于其它语言的有调语言,在提取语音参数时有着自己的规律.汉语韵律是受语境影响的层次结构,而神经网络的运行和学习速率也极大的受到语境信息的影响,语境信息有着重要的作用.神经网络结构比传统模型更好地反映了汉语的韵律.在汉语TTS系统韵律模型中改善文本处理能力可提高汉语语音合成系统的语音输出质量,针对上述问题,本文提出了竞争型神经网络在汉语TTS(TEXT TO SPEECH)韵律建模中的应用,通过输入多个不同韵律特征的模板样本的竞争,最终选择与自然语音最匹配的那个样本模板,听辨的结果证明,竞争型神经网络模型合成语音的自然度得到进一步的提高.目前,自然语言识别理解技术和数据挖掘技术在汉语TTS系统中得到广泛应用,语音技术与多媒体技术相结合促成了由文本到可视语音的转换(text-to-visual speech,TTVS)的实现.