可视语音合成中声视频映射的研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:tomjerry2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自1972年Parke研究人脸动画开始以来,国内外研究工作者使用各种方法合成人脸动画,诸如基于参数控制方法,基于数据驱动方法等等。人脸动画的合成具有广泛的实用价值,用于游戏、娱乐、电影制作可以增长人的观赏价值,带来可观的经济效益,用于可视会议与可视电话可以减少带宽需求,提高实时信息传输效率。   本文对国内外可视语音的研究成果进行了深入分析与总结,实现了一个汉语语音驱动的人脸动画系统。系统首先按照汉语发音规则对汉语拼音单音节的口形进行了分类,然后通过语音切分和识别得到相应的视位类,最后利用视位类的人脸动画参数(FAP:facial animation parameter)以及语音波形和人脸网格模型,通过图像变形手段合成连续的人脸动画视频。本文主要研究内容和取得的成果如下:   1、采用改进的短时能量和短时过零率对语音波形进行自适应阈值的切分,提高了切分的精确性和后续识别的准确性。   2、基于隐马尔可夫模型(HMM:Hidden Markov Model)构建了一个高效、快捷的语音视位类识别算法,并对HMM的状态数、高斯混合模型个数等参数及数据预处理方式进行了优化,提高了识别率和识别速度。   3、在合成视频过程中采用基于参数控制方法和2.5D人脸模型。将识别的视位类拆分成汉语声韵母,进而确定相应的FAP参数进行动画合成,提高视频合成的平滑度。同时加入了一些眨眼,点头等特殊效果,以及利用深度信息来模仿三维摇头动作,增强了逼真程度。   实验结果显示,在视位类识别过程中,对特定人可以达到99.13%的识别正确率,对非特定人可以达到96.74%的正确率。利用识别结果合成的可视语音口形自然、与发音内容一致,并能与语音较好地同步,具有一定的实际应用价值。
其他文献
嵌入式系统己成为计算机领域一个重要的技术发展方向,应用嵌入式Internet技术的监控系统是监控领域最新的发展趋势。嵌入式Internet技术改变以往的监控系统体系结构,满足了现
学位
在经济全球化的浪潮下,我国经济和金融的国际化步伐日益加快。中国金融体制进一步向市场化、国际化方向加速改革;而人民币汇率机制改革已使中国的外汇市场从固定汇率制退出,进入
视频监控是利用计算机视觉和图像处理的方法对图像序列进行运动检测、运动目标分类、运动目标跟踪以及对监视场景中目标行为的理解与描述。视频中的异常行为检测是近年来视频
随着高通量测序技术以及生物信息学的发展,基因组学、蛋白质组学以及代谢组学在疾病预防、疾病诊断、用药效果以及预后评估等方面的应用日益广泛。基因、蛋白、代谢等生物信息
近年来,随着计算机技术的迅猛发展,研究符合人际交流习惯的新颖的人机交互方式变得异常活跃。作为自然的人机交互的一个分支及机器视觉领域的一项重要内容的基于计算机视觉的手
近年来,互联网的迅速普及带动了信息技术的飞速发展,信息技术对人们的生活产生了巨大的影响。在这种环境下,政府和企业都在加快信息化建设的步伐,构建基于Web的电子政务、电
学位
本论文主要介绍了基于DSP的自适应智能型积分器和交替式积分器的设计。作者通过对传统模拟积分器电路及数字信号处理等方面的深入调研,给出了实际积分电路的理论计算和误差分
在血液常规检查中,血球分析仪是医学临床检验最常用的仪器,为疾病的诊断提供重要的依据。随着微电子技术和超大规模集成电路的高速发展,基于嵌入式技术的血球分析仪系统在功
定位同步系统为综合检测列车上的各检测系统提供统一的距离采样控制基准及统一的时间、速度和里程标签,并通过实时的里程同步和距离脉冲通道发布,使处于整列车不同断面位置的检
随着医院信息系统的普及,医院数据库规模不断扩大,数据复杂程度日益增加。如何从现行医院信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿
学位