基于综合加权算法的汉语语音同步三维口型动画研究

来源 :山东财经大学 | 被引量 : 0次 | 上传用户:zhfly6278
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多媒体技术和人机交互技术的快速发展,人们越来越希望能够跟计算机进行自然流畅的交流。人类面部在交流过程中传递着大部分的沟通信息,如心情、精神状态等。因此,人脸表情动画的研究在近年的计算机动画研究中受到了广泛的关注,而口型动画是人脸表情动画中非常关键的一部分。本文主要工作是基于MPEG-4标准的面部动作编码对人脸口部区域进行提取编码,并针对汉语发音特点进行发音口型分类,并以此基本口型分类应用综合加权算法驱动汉语发音同步的口型动画。本论文基于MPEG-4标准和中文语言学理论,以SAPI5.0提供的文本语音合成(TTS)引擎、OGRE三维虚拟仿真引擎作为主要的开发工具,实现了一个基于综合加权算法的汉语语音同步的动画系统。该系统主要由三部分组成:文本分析系统;语音合成系统;语音与口型动画同步系统。系统的执行流程是:首先,文本分析系统针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流;其次,基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参数驱动模型的形变,从而实现人脸口型动画;最后将合成的汉语语音与人脸口型动画同步,实现较为逼真的人脸口型动画。从而有效的解决汉语语音发音与口型动画的同步问题。由于本系统主要是针对汉语发音口型建立的动画模型,在动画驱动过程中主要研究了人脸口部区域的动画变化,并没有考虑到整个的人脸动画的驱动,如表情动画,舌头动画等。这将是论文进一步研究的研究点。本文提出的口型动画方案具有很广泛的应用前景,可以应用在服务行业中的虚拟服务员、低频带的网络通讯和视频会议、电影、游戏和广告中的角色模拟等许多领域,增强多媒体虚拟现实的真实感。另外,本研究可以很好的推动可视化的语音动画合成的发展。
其他文献
面向服务架构因其松耦合、资源共享等特性可以很好的适应分布式,跨平台等要求,迅速在各个领域发展并实际应用起来。但是面向服务架构中的安全问题一直是阻碍其发展的重大问题,随
随着计算机软硬件技术和互联网的发展和普及,影视动画、游戏动漫、生物医学等3D产品的消费和使用,已成为普通大众生活和工作的一部分,立体取代平面、虚拟模拟现实的3D技术带领我
在维护过程中可以通过实施度量来收集、分析相关属性数据,规划当前的项目,增加项目控制的可视化程度;通过维护度量帮助人们认识和理解软件维护活动,定量的评价软件维护过程本
随着社会化媒体的兴起,人们可以更频繁更便捷的与互联网互动,互联网的资源呈现爆炸式增长。丰富的互联网资源带给人们便捷的社交资源的同时也给人们带来信息冗余的困扰,为了解决
访问控制技术是信息安全技术的重要组成部分,其中基于角色的访问控制技术RBAC是当前研究的热点。然而随着RBAC管理角色间关系复杂化,导致难以对管理角色的辖域做出准确判断。为
虚拟化技术集群环境中逐渐在得到大量应用,是当前云计算技术飞速发展的重要的基础性工作。围绕虚拟化集群系统的性能问题,本文从性能测量、性能优化两个角度讨论了虚拟化集群管
随着经济和互联网的快速发展,数码相机、智能手机等移动设备已进入千家万户,人们在生活中无处不使用到数字多媒体设备。无论是在学习、工作中,还是旅游、逛街等生活中的方方
数字水印技术是当前多媒体信息安全研究领域发展最快的热点技术,受到了国际学术界和企业界的高度关注。该技术广泛应用于数字产品的版权保护和身份认证。本文首先深入研究了文
近年来,随着智能手机性能的提高以及嵌入式GIS应用范围的不断增大,对基于智能手机的地图显示要求也相应提高。在当前地图显示方式中,栅格地图以其直观全面呈现地理对象的优势而
医学图像的处理技术越来越智能化,其在临床疾病诊断中的应用也成为了医学领域和计算机领域共同的热点研究课题。随着检验手段的提升和生存环境的恶化,癌症的成因也日新月异,疾病