文本驱动的可视语音合成技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:q19891210626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着计算机图形学及多媒体技术的飞速发展,具有高度真实感的可视语音动画已成为计算机领域的研究热点,它在聋哑人教学、电子商务、影视特效、人机接口、医学手术等方面都有着广泛的应用。本文重点研究了文本驱动的可视语音合成技术,旨在对输入的文本信息进行特征分析,从中提取出语音、表情以及时间等控制信息,通过改进的三维人脸模型模拟出真实自然的语音人脸同步动画。首先,在对人脸建模方法进行深入分析的基础上改进特定人脸模型,进而减少网格点和可编辑面数量,以降低运算复杂度缓解系统压力。其次,提出运用网格模型对人脸重点部位的肌肉进行抽象化的方法。该方法借鉴人脸生理组织结构的相关知识,总结出说话过程中面部肌肉群的运动规律,用以克服传统方法中网格模型形变僵硬、网格顶点不易控制的缺点。此外,针对输入文本信息的多种特征进行研究,提出嵌入表情标签的方法为后续合成人脸动画提供表情和时间等控制参数。并依据汉语普通话发音规律估算出连续语流中每个字的发音时长,以此做为可视语音人脸动画的同步控制条件。最后,分析汉语中元音与辅音发音口型之间的相互影响关系,对其进行等级划分。改进汉语协同发音模型,再辅助以表情/口型帧融合过渡处理、人脸动画等技术,实现同步的语音人脸动画。
其他文献
网络信息时代,信息技术的发展使得数据的收集和传输过程变的越来越简便易行,数据呈现爆炸式增长。人们对于隐私的关注程度也变的越来越高。数据挖掘是一门从海量数据中挖掘有
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法,该算法采用了正反馈并行自催化机制,具有较强的鲁棒性、优良的分布式计算机制、易于与其它方法结合
敏感规则隐藏是隐私保护数据挖掘的一个重要分支,受到越来越多的研究工作者的重视。敏感规则的隐藏应用非常广泛,主要应用于商业竞争与合作、金融等领域。目前存在的敏感规则
随着时代发展,特别是近几年进入数据爆炸的时代,数据挖掘领域的重要性越发凸显。而一些经典的算法及其改进已经无法满足日益增长的对数据处理的要求了。聚类,作为数据挖掘中
在因特网技术飞速发展的今天,信息安全问题已经成为日益突出的问题。安全协议的出现虽然在很大程度上提高了网络信息传输的安全性,但同时因为设计上的缺陷性,安全协议也存在着很
在基于Web应用开发技术的发展过程中,为了提高开发效率,节约软件成本,软件复用技术被广泛地应用于各种Web应用的项目开发中。设计模式是软件设计层面的复用技术,MVC(Model-Vi
无线Mesh网络是一种多跳、高速率、高容量的新型无线网络,它融合了无线局域网和Adhoc网络两种网络特征,是网络“最后一公里”宽带接入的关键技术之一。作为一种分布式网络,多
学位
随着三维模型在众多领域的深入应用,模型的展示特别是基于B/S架构的模型展示成为三维模型应用环节中不可缺少的一环。而三维建模技术的发展使得出现了一大批拥有十万面片和百
随着移动通信技术的迅速发展和移动终端的智能化,基于移动网络和终端的增值业务越来越受到人们的关注。特别随着移动通信的发展,基于位置的服务,一个继通话服务、短信服务后又一
无线传感器网络(Wireless Sensor Network,简称WSN)是由部署在监测区域内数以万计的廉价的微型传感器节点组成,这些传感器节点通过无线通信方式形成了一个多跳的自组织网络,