融合发音机理的统计参数语音合成方法研究

被引量 : 0次 | 上传用户:lllllllllllllvvvvvvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近二十年来,统计参数语音合成方法发展迅速,逐步成为与单元挑选与波形拼接方法相并列的一种主流语音合成方法,隐马尔可夫模型(Hidden Markov Model, HMM)是统计参数语音合成中最为常用的声学模型形式。相比于单元挑选与波形拼接方法,基于HMM的参数合成方法具有系统构建自动化程度高、可快速自适应、合成语音平滑流畅、系统尺寸小等优点,但是该方法在合成语音的音质与自然度上和单元挑选与波形拼接方法相比仍有差距。此外,现阶段该方法在实现多样化及个性化语音合成时的性能仍不够理想。一方面,语音学知识难以融入声学特征预测过程,对于合成语音特征的控制存在较强的数据依赖性;另一方面,在利用少量目标发音人数据与模型自适应算法实现合成系统话者转换时,合成语音的自然度以及与目标发音人的相似度仍有待提升。现阶段统计参数语音合成方法所使用的声学模型结构缺乏对于语音产生机理的描述,是产生上述不足的原因之一。因此,本文围绕统计参数语音合成中融合发音机理的声学建模方法开展研究工作,将发音动作特征和共振峰特征作为中间层表征,构建了“语言学特征-中间层表征-声学特征”的声学模型结构,实现了对于实际语音产生中的层次化信息处理过程的模拟。首先,本文研究结合发音动作特征的声学建模方法,构建了中文多发音人连续语流发音动作特征数据库,验证了双流HMM模型对于实现发音动作特征与声学特征联合建模的有效性,提出了结合目标-逼近模型与多元回归隐马尔科夫模型(Multiple Regression Hidden Markov Model, MRHMM)的声学建模方法,实现了基于语音学规则的合成语音特征控制;其次,本文将共振峰特征作为音素序列与可观测声学特征之间的中间表达,提出了基于隐藏式轨迹模型(Hidden Trajectory Model, HTM)的语音合成频谱建模方法,提高了频谱特征的预测精度与合成语音的自然度,实现了对于合成语音共振峰频率与带宽等特征的灵活控制,并且进一步研究了HTM模型自适应方法,提高了话者转换合成语音的自然度与相似度。整篇文章的安排如下:第一章是绪论,介绍语音产生机理,并简要回顾几种常见的语音合成方法。第二章具体介绍基于HMM的统计参数语音合成方法,包括HMM的基本概念、基于HMM的语音合成系统框架以及其中的关键技术点,最后通过分析当前方法的优缺点,阐述本文研究工作的动机与出发点。第三章着重介绍基于双流HMM的发音动作特征与声学特征的联合建模方法。首先,完成了多发音人中文连续语流发音动作特征数据库的录制,包括录音环境的搭建以及对于采集的发音动作特征的预处理等;然后,实现了基于双流HMM的中文连续语流发音动作特征与声学特征的联合建模;最后,研究了不同的上下文属性、模型聚类方式及流间相关性假设对于发音动作特征与声学特征的联合建模性能的影响。第四章具体介绍结合目标-逼近模型与MRHMM模型的可控语音合成方法。首先,提出了基于目标-逼近模型的发音动作特征预测方法,该模型相比HMM模型具有参数数目较少且物理意义明确的优点;其次,在第三章研究工作基础上,设计实现了结合目标-逼近模型和MRHMM模型的可控语音合成方法,并通过主客观测试验证了其结合语音学知识实现合成语音特征控制的有效性;最终,完成了结合发音动作特征的可控语音合成演示系统的开发。第五章介绍基于HTM模型的统计参数语音合成方法。首先,介绍了HTM模型的基本框架,该模型将由目标-逼近模型产生的共振峰轨迹作为音素序列与可观测声学特征之间的隐含中间层,并利用非线性变换描述共振峰特征与声学特征之间的映射关系;然后,提出了基于HTM模型的统计参数语音合成方法,设计实现了相应的模型训练与参数生成算法,并且通过实验证明了该方法在降低频谱特征预测误差、提高合成语音自然度、实现对于合成语音共振峰特征灵活控制等方面的有效性。第六章介绍基于HTM模型自适应的语音合成话者转换方法。首先,提出了HTM框架下的模型自适应方法,该方法对于HTM模型中的共振峰相关参数和残差相关参数分别进行转换,并通过组合两者转换实现最终的模型自适应;然后,将HTM模型自适应方法应用于语音合成中的话者转换,实验结果表明该方法可以取得比传统最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)方法更优的转换后合成语音自然度与相似度。第七章对全文进行了总结。
其他文献
洛帆-大沟金矿(化)区位于扬子准地台西南缘与右江造山带的衔接部位,处于赖子山背斜南东翼及背斜南西倾伏端。研究区西部主要为开阔台地相的浅水碳酸盐岩;东部为台地边缘斜坡
目的:冠心病和慢性肾功能不全是威胁人类健康的两大慢性疾病,大量研究表明合并慢性肾功能不全的冠心病患者发生心血管不良事件的比例明显升高,而目前慢性肾功能不全导致不良
随着机械工业和国民经济各部门生产的发展和技术进步,对钢材产品质量的要求越来越高。对于冷连轧机高速生产过程中的划痕问题,文章在引入划痕综合判断标准新概念的基础上,探
针对传统的相控阵雷达存在的高硬件复杂度问题,提出了一种基于多输入多输出(MIMO)技术的相控阵雷达系统(MIMO-LPC).首先建立了MIMO-LPC雷达的信号模型,对MIMO-LPC系统特性进行了
城市水循环系统运行状态的稳定与否关系着城市水安全的健康程度,而城市水代谢效率作为表征城市水循环系统是否健康运行的重要依据则成为研究的焦点。以天津市为例,依据DEA模
<正>通过刚才的正音可以看出同学们对字词的掌握不错,看来同学们课前对课文读得很充分。下面请同学们打开书,快速浏览课文,回顾课文内容,想一想,
秘书工作者的成长与进步,离不开自身的努力,要不断加强自身修养,提高综合素质,"实"字为先,"干"字当头,以实立位,以实取信,以实树形。政治上要忠实。忠诚胜于能力。政治忠诚是秘书
针对给定约束条件下作战任务最优战术动作序列规划问题,提出一种将分层任务网络(hierarchical tasknetwork,HTN)与遗传算法(genetic algorithms,GA)相结合的HTN_GA战术任务规
目的:血管生成素/酪氨酸激酶受体2(Angiopoietin/tyrosine kinase receptor2,Ang/Tie2)通路是近年来新发现的一条重要的血管新生通路,该通路在胚胎期的血管发生和成人阶段的
会议
目的分析维持性血液透析患者发生内瘘血栓的危险因素,并实施相关预防性护理措施.方法选择2014年6月~2017年8月我院收治的维持性血液透析患者60例作为研究对象,随机分为对照组