基于神经网络的语音合成与可视语音合成研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:tuaa29801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(speech synthesis)是指将文字转化为语音的一类技术,是实现人机语音交互系统的核心技术之一。而可视语音合成(visual speech synthesis)是指将输入特征(文本或者语音)转化为人脸动画以实现多模态人机语音交互的技术。隐马尔可夫模型(hidden Markov model,HMM)在语音合成和可视语音合成中有着广泛的应用,但由于HMM假设特征是可以聚类的,导致其不能精准地表征特征空间,生成的特征参数过于平滑,为了解决这些问题,本文选用神经网络作为统计模型并将其成功地应用于语音合成与可视语音合成中。首先,本文详细介绍了基于神经网络的语音合成系统。通过对神经网络基本原理的研究,本文实现了基于深度神经网络(deep neural network,DNN)以及递归神经网络(recurrent neural network,RNN)的语音合成系统,基线系统为基于HMM的语音合成系统。主客观实验结果说明和基线系统相比,基于神经网络的语音合成系统效果更好,尤其是RNN,由于其本质就是一个序列学习器,因此在三个系统中效果最好。其次,本文提出了一种高质量的语音合成框架。传统的统计参数语音合成(statistical parametric speech synthesis,SPSS)一般会通过一个声码器来从时域的语音信号中提取语音特征,提取出的特征也可以通过声码器重构语音信号。绝大多数声码器都使用最小相位的假设,由于最小相位是真实相位的简化,因此会导致语音音质的很大失真。为了得到高音质的语音合成效果,本文提出了一种考虑相位的波形表示框架,该框架需要统计模型对幅度谱和相位谱进行联合建模,合成的语音音质有明显的提高,实验分析也证明了所提出方法的有效性。最后,本文提出一种基于神经网络的可视语音合成系统。我们使用主动表观模型(active appearance model,AAM)来对人脸图像进行建模,解决了难以直接对人脸图像进行建模的问题。通过统计模型可以学习输入特征(文本、语音或两者的结合)与AAM参数之间的关系,统计模型选用HMM以及RNN并对两者的效果进行了实验对比分析。统计模型使得预测得到的视觉参数过于平滑,合成的人脸动画存在模糊的问题,因此我们使用轨迹指导单元选择拼接的方法来从真实的图像数据库中选取最优的序列,解决了这一问题。主客观实验也证明了所提方法的有效性。
其他文献
近年来,随着畜牧业的快速发展,对畜牧兽医技术也提出了更高的要求,人们对农村畜牧兽医新技术推广的重视程度也越来越高。推广畜牧兽医新技术对于保障动物的健康生长以及促进
对目前成本和商务环境的资产组合进行审查后,UPM决定采取一系列整改措施,其中就包括削减产能计划。
结合改扩建公路路线设计原则,例如以既有公路路线长度为基础的设计原则、全面利用既有公路资源的设计原则、一般性设计原则等等,进行合理性的分析,并简单介绍了加强改扩建公
现在IT服务管理已成为现代企业的量化IT管理,是企业信息化的一个助推器,能够有效提高IT的运维水平。笔者讲述了国内外研究相关的几个方面,包括IT服务管理的标准、定义、流程和实
随着人们生活水平的提升,对于食物质量的要求也越来越高,绿色无公害农作物的兴起满足了人们多样的需求。食品安全问题频出,人们越来越开始关注食品的质量和品质,无公害食品从
大肠杆菌属于肠杆菌科,埃希氏菌属,通常呈革兰氏阴性的无芽孢有鞭毛的短杆菌。大肠杆菌通常情况下利用消毒类药物便可以防治,不过在生猪养殖过程中,由于养殖环境中生猪粪便等