论文部分内容阅读
随着多媒体通信技术的不断发展,人们对信息获取的方式和内容提出了越来越高的要求.语声信息服务以其方便、直接的优点受到了通信领域的广泛青睐.作为人机语音通信的一个重要方面的语音合成技术是否可以达到实用的要求关键在于其自然度是不是和真人接近.而合成语音是否自然最主要的标志就是合成语音的韵律是不是和自然人说话时的韵律想吻合,这也是语音合成技术中最重要的核心技术之一.该文在汉语语音合成系统中需要使用的基频和时长模型均进行了深入研究.基频和时长是韵律特征中最重要的两个特征,该文利用基本的统计学方法和数据挖掘方法,对基于语音学规律的Target基频模型以及SoP时长模型中高层韵律描述和模型参数之间的关系,进行了详细的统计和分析.在分析过程中,分别解决了数据稀疏和属性间相互作用的问题;在数据挖掘方法上,利用了CART树和非线性回归方法的特点,训练过程中采用一系列的方法保证了数据挖掘效果.文本利用3500句左右的汉语自然语流建立了系统的基频模型和时长模型.并且在此基础上,完成了一个大语料库合成系统KB3.0.通过对系统的效果评测验证了韵律模型的良好效果.该文主要包括以下几方面的内容:(1)介绍了基本的统计学方法(均值比较,单因子方差分析,多元非线性回归)和数据挖掘方法(CART)的基本原理和技术特点.(2)介绍了Target基频模型的基本思想,在大语料库上生成Target模型参数作为训练集,通过CART树的方法训练出可以使用的Target基频模型.(3)介绍了SoP时长模型的基本思想,通过大量的统计分析工作确定了时长模型中各个属性的影响和其中的相互关系,对连续语流数据库建立了声韵母时长模型.(4)在Target基频模型和SoP时长模型的基础上,设计并实现了KB3.0大语料库语音合成系统,在韵律的普适性等方面具有显著的提高,整体效果达到了相当的水平.以KB3.0语音合成系统为核心所完成的InterPhonic语音平台产品和行业解决方案,已经在社会生活的众多领域得到了广泛的应用.语音技术作为一种沟通的技术,通过在韵律研究方面的不断进步,已经越来越多的应用到各行各业中去.