论文部分内容阅读
手机等移动设备技术平台的发展和普及,为语音技术的应用提供的新的发展平台和契机,语音技术在移动手持设备平台的应用发展,也必将推动移动设备更加智能化,并为更多适用人群所接受。在语音合成中,具有表现力的语音合成技术是当前研究的重点和热点。
本文围绕加强普通话合成语音表现力的这一主题,从声调实现、轻重模式和节奏计算等方面展开了深入的研究。
首先,以大规模语料的广州普通话、广州话和标准普通话为基础,研究分析了这三类语音之间的声调实现、轻重模式和节奏模式的基本规律和比较特性。归纳出来一些基本的语音学规律并进行了具体的解释。
传统的节奏使感知经验的概念,探索可计算的节奏度量指标是最新的研究方向。本文根据普通话是声调语言的基本特性,把原来仅仅基于时长特征的节奏度量指标推广到基于音高FO特征,扩充了度量的维度。利用大规模语料库,对这些节奏度量指标进行了基于主成分分析方法的相对重要性评估。最后根据评估的结果对广州、上海、厦门、重庆等地域口音的普通话和标准普通话进行了节奏的比较研究,得到他们之间在节奏方面的相对相似关系。
最后,在大量语音比较研究的基础上,本文提出了基于决策树和聚类算法的节奏模板预测方案,为具有表现力的语音合成提供了韵律节奏参数的校准提供了初步的解决办法。