论文部分内容阅读
焦点重音是言语工程和语音学关注的热点问题。焦点生成技术可以提高生成语音的自然度、表现力,在人机语音交互领域具有广泛的应用前景。论文分析了焦点语音中焦点的声学特征变化规律,研究了焦点语音的建模、转换与合成方法。论文的主要成果及创新点如下:1、提出了一种基于局部凸显度的焦点重音的量化和建模方法。论文首先定义了音节局部凸显度特征,该特征较好地反映了音节声学特征在局部辖域的凸显程度。然后基于焦点的声学特征局部凸显度,融合韵律结构位置和相对焦点位置等特征,建立了英语中性到焦点语音的声学特征变化的量化模型,为焦点语音的转换与生成,奠定了数学基础。2、提出了一种基于HMM的焦点语音合成框架。在有限训练语料的条件下,该框架采用焦点无关问题、焦点相关问题的二级决策树保证合成语音自然度,采用基于代价计算的HMM选取算法和参数补偿算法提高合成语音的焦点强度。基于该框架,分别提出了基于统计参数的和基于决策树上下文参数的英语焦点语音合成模型。实验表明,该模型合成语音的自然度和焦点强度高于已有模型。3、提出了一种基于凸显度的英语中性到焦点语音转换模型,采用线性变换矩阵描述中性语音声学特征局部凸显度与中性到焦点语音声学特征变化的相关性以及声学特征之间的相关性。提出了一种基于转换模型指导的焦点语音合成模型,采用离散化方法提取中性语音声学特征相关标注,并设计了用于决策树训练的声学特征相关问题,建立了预测参数可控的HMM模型。在合成阶段,采用转换模型预测焦点语音的声学特征,进而指导HMM模型合成焦点语音。由于HMM模型是由中性语料训练得到的,降低了模型训练对焦点语料的需求。4、提出了一种的汉语语句重音声学参数的非线性生成算法。统计了大规模语句的语调特点,基频主要呈下降趋势。分析了语调调型无关的重音声学特征凸显度表现,提出了由重音声学特征凸显度和韵律短语辖域内其他音节声学特征到重音声学参数的非线性映射算法,建立了支持重音生成的汉语语音合成系统,实验表明,基于该算法建立的语音合成系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。