基于AAM和异步发音特征DBN 模型的逼真可视语音合成

来源 :第十一届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户：benben8383

【摘要】

：

　　本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中，发音特征（如嘴唇、舌体和声门/软腭的状态）之间允许

【作者】

：

张贺[1]蒋冬梅[1]吴鹏[1]谢磊[1]付中华[1]HichemSahli[2]

【机构】

：

西北工业大学计算机学院,陕西西安 710072 中国

【出处】

：

第十一届全国人机语音通讯学术会议

【发表日期】

：

2011年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中，发音特征（如嘴唇、舌体和声门/软腭的状态）之间允许在一定约束范围内异步，以更好地模拟协同发音现象，为人类真实发音过程建模。在模型训练中，以42维感知线性预测（PLP）特征作为音频特征，视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后，对于给定输入语音，基于期望值最大化（EM）算法推导出相应最优嘴部参数学习算法，并由学习得到的AAM特征重构出嘴部图像序列。在实验中，为30句连接词语音重构了嘴部动画，客观评价结果表明，与听视觉状态同步DBN模型（SS_DBN）和听视觉状态异步DBN模型（SA_DBN）相比，由AF_AVDBN模型学习得到的嘴部参数更加接近真实参数。对合成可视语音的主观评价结果表明，在模型中考虑听视觉之间的异步，会增加合成嘴部动画与语音之间的一致性，尤其是由AF_AVDBN模型，得到了非常准确、逼真、自然和清晰的可视语音。

其他文献

电力企业政工干部做好群众工作的途径

新时期政工干部的工作改革中,需结合电力企业的群众工作形式和工作内容进行探讨,采用针对性的思想工作方式加深职员对群众文化、企业文化的认知度,有利于提升政工工作的合理

期刊

电力企业:政工干部群众工作

基于三特征流DBN 模型的听视觉情感识别

　　本文构建了一种三特征流混合动态贝叶斯网络（T_AsyDBN）听视觉情感识别模型，听觉流采用MFCC特征和经过PCA降维的局部韵律特征，视觉流定义了二维面部几何特征和三维面部动作参

会议

动态轨道衡称重系统误差分析及数据处理的研究

　　为了更好的消除动态轨道衡称重系统中存在的误差，提高称重精度，本文对动态轨道衡称重系统在称重过程中所可能产生的误差分三个方面进行了分析，指出了各个误差产生的原因以及

会议

动态轨道衡数字滤波称重系统误差分析数据处理

医学类高校政府采购内部控制及其评价研究

医学类高校发展正在进入快车道,政府采购金额也随之大幅度增加.医学类高校政府采购具有专业性强、时效性高、项目多、金额大等特点.本文主要从医学类高校政府采购及其内部控

期刊

医学类高校政府采购内部控制

建筑给排水施工要点

在建筑工程整体施工中,给排水工程施工质量会直接影响到建筑物的整体质量和安全性能.本文从提升建筑给排水工程施工质量管理必要性和质量问题出发,论述了如何做好建筑给排水

期刊

建筑给排水必要性问题措施

话题及句长对停顿的影响:男女发音人比较

　　本文通过严格控制的实验研究了话题结构和句子长度对句间停顿的调节模式，并比较了性别差异。语料是由两个句子构成的小语篇，通过改变第二个句子控制两种句子长度(短和长)

会议

初探EMG 信号在语音研究中的应用

　　说话人在发音时面部肌肉的活动会产生电信号。本文对EMG信号的原理及特征做了简单的梳理，并通过比较汉语普通话元音的有声，小声和无声三种发音模式下的肌电信号，进一步分析

会议

EMG肌电信号语音研究汉语普通话元音发音说话人信号特征三种模式

汉语学习者两类发音参数分布比较研究

　　本文针对汉语学习者的发音偏误问题，通过统计绝对值变化和建立高斯混合模型的方法比较了两类发音参数：一是反映声调和语调信息的音高信息及其衍生参数、二是反映声道和声

会议

汉语学习者汉语发音参数分布声学参数音高信息发音偏误高斯混合模型

基于房建施工中防渗漏施工技术的应用分析

房屋建筑工程是城市规划建设中的基础工程,其质量和安全对人们的日常生活具有一定程度的影响.工程建设中,经常会出现渗漏问题,这对整体建设的质量影响较大,应该引起重视.建筑

期刊

房建施工防渗漏施工技术应用

藏语夏河话单辅音唇位研究

　　本文主要研究了藏语夏河话辅音的唇形，首先录制了藏语夏河话不同发音部位的14个单辅音的唇形视频，根据编写的内外唇线的标记程序，进行14个关键点的手工标记，对不同发音部位的

会议

藏语话单辅音发音部位开口度宽度标记比较分析

基于AAM和异步发音特征DBN 模型的逼真可视语音合成

与本文相关的学术论文