论文部分内容阅读
随着计算机技术和信息技术的飞速发展,如何使人机界面更加自然和友好成为相关机构的研究热点,其中,语音交互方式备受人们关注。语音交互中非常重要的一项技术就是语音合成,本文着重研究语音合成技术中的音库设计,韵律建模和合成算法。 语音合成在高配置机器(如大型机,工作站等)上的应用已经非常广泛,但是由于嵌入式系统的资源限制,基于大语料库的语音合成方法难以在嵌入式系统上实现。因此,如何平衡音库容量和合成音质之间的矛盾便成了问题的核心所在。本文根据汉语音节的特点,提出了一种嵌入式音库的设计算法。在对样本之间失真度的测量上采用了符合人耳感知特性的MFCC参数,测量最小失真度使用了动态规划(DP)技术来优化匹配过程。根据对汉语中有调音节的出现频率的分析,确定了音库的最终结构。选取音节作为基元,采用改进的k均值聚类算法(MKM算法)。同时考虑到基元的后续处理,增加了候选基元,从而优化了基元库质量。 在人们的交流过程中,韵律隐含着文字所不能表达的信息,因此在汉语语音合成系统中,韵律建模的作用相当重要。相对于概率模型和决策树模型来说,神经网络有着强大的非线性映射能力和自学习能力,因此,这里选用神经网络来训练韵律模型。网络的输入参数主要从文本中获得,同时为了表达不同含义的需要加入了重音及其相关信息。根据汉语音节的特点可以归纳出17个有用的参数,重音参数不能直接从文本中获得,因此参考相关资料,提出了调域系数(TRR)和音节时长组合的方法来检测,实验表明能降低漏检率和提高召回率。根据参数的重要性不同将参数划分为两组矢量,对重要性较高的矢量采用增加加权层来提高网络输出的精度,从而构成了三组输入矢量。神经网络的中间层采用了高斯径向基函数对输入矢量进行映射,高斯函数的中心为该子空间的质心,径向宽度参数为该子空间中所有样本与