基于AAM和异步发音特征DBN 模型的逼真可视语音合成

来源 :第十一届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:benben8383
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中,发音特征(如嘴唇、舌体和声门/软腭的状态)之间允许在一定约束范围内异步,以更好地模拟协同发音现象,为人类真实发音过程建模。在模型训练中,以42维感知线性预测(PLP)特征作为音频特征,视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后,对于给定输入语音,基于期望值最大化(EM)算法推导出相应最优嘴部参数学习算法,并由学习得到的AAM特征重构出嘴部图像序列。在实验中,为30句连接词语音重构了嘴部动画,客观评价结果表明,与听视觉状态同步DBN模型(SS_DBN)和听视觉状态异步DBN模型(SA_DBN)相比,由AF_AVDBN模型学习得到的嘴部参数更加接近真实参数。对合成可视语音的主观评价结果表明,在模型中考虑听视觉之间的异步,会增加合成嘴部动画与语音之间的一致性,尤其是由AF_AVDBN模型,得到了非常准确、逼真、自然和清晰的可视语音。
其他文献
新时期政工干部的工作改革中,需结合电力企业的群众工作形式和工作内容进行探讨,采用针对性的思想工作方式加深职员对群众文化、企业文化的认知度,有利于提升政工工作的合理
  本文构建了一种三特征流混合动态贝叶斯网络(T_AsyDBN)听视觉情感识别模型,听觉流采用MFCC特征和经过PCA降维的局部韵律特征,视觉流定义了二维面部几何特征和三维面部动作参
会议
  为了更好的消除动态轨道衡称重系统中存在的误差,提高称重精度,本文对动态轨道衡称重系统在称重过程中所可能产生的误差分三个方面进行了分析,指出了各个误差产生的原因以及
医学类高校发展正在进入快车道,政府采购金额也随之大幅度增加.医学类高校政府采购具有专业性强、时效性高、项目多、金额大等特点.本文主要从医学类高校政府采购及其内部控
在建筑工程整体施工中,给排水工程施工质量会直接影响到建筑物的整体质量和安全性能.本文从提升建筑给排水工程施工质量管理必要性和质量问题出发,论述了如何做好建筑给排水
  本文通过严格控制的实验研究了话题结构和句子长度对句间停顿的调节模式,并比较了性别差异。语料是由两 个句子构成的小语篇,通过改变第二个句子控制两种句子长度(短和长)
会议
  说话人在发音时面部肌肉的活动会产生电信号。本文对EMG信号的原理及特征做了简单的梳理,并通过比较汉语普通话元音的有声,小声和无声三种发音模式下的肌电信号,进一步分析
  本文针对汉语学习者的发音偏误问题,通过统计绝对值变化和建立高斯混合模型的方法比较了两类发音参数: 一是反映声调和语调信息的音高信息及其衍生参数、二是反映声道和声
房屋建筑工程是城市规划建设中的基础工程,其质量和安全对人们的日常生活具有一定程度的影响.工程建设中,经常会出现渗漏问题,这对整体建设的质量影响较大,应该引起重视.建筑
  本文主要研究了藏语夏河话辅音的唇形,首先录制了藏语夏河话不同发音部位的14个单辅音的唇形视频,根据编写的内外唇线的标记程序,进行14个关键点的手工标记,对不同发音部位的