语音驱动虚拟说话人研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:xichblueagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音驱动虚拟说话人技术指的是通过输入语音信息生成虚拟人面部动画。不仅提高用户对语音的理解度,而且提供一种真实、友好的人机交互方式。随着该技术的发展进步,势必为我们带来更多新的人机交互体验,极大丰富我们的日常生活。本论文采用两种方案研究语音驱动虚拟说话人动画合成,并对其进行分析对比。第一种方案,基于深度神经网络的语音驱动发音器官运动合成。第二种方案,基于MPEG-4的语音驱动虚拟说话人动画合成。这两种方案均需要找到相应的语料库,并对其进行提取构建出适合本论文研究问题的声视觉数据。第一种方案:语音的产生与声道发音器官的运动直接相关,如唇部、舌头和软腭的位置与移动。通过深度神经网络学习语音特征参数与发音器官位置信息两者之间的映射关系,系统根据输入的语音数据估计出发音器官的运动轨迹,并将其体现在一个三维的虚拟人上面。首先,在一系列参数下对比传统神经网络(Artificial Neural Network,ANN)和深度神经网络(Deep Neural Network,DNN)的实验结果,得到最优网络;其次,设置不同上下文语音特征参数长度并调整隐藏层单元数,获取最佳的上下文长度;最后,选取最优网络结构,由最优网络输出的发音器官运动轨迹信息控制发音器官运动合成,实现虚拟人动画合成。第二种方案:基于MPEG-4的语音驱动虚拟说话人动画合成的方法是一种数据驱动方法。首先,本论文从LIPS2008数据库中提取构建出适合本论文的声视觉语料库。然后,使用BP(Back Propagation)神经网络的方法学习语音特征参数与虚拟人人脸动画参数(Facial Animation Parameters,FAP)两者之间的映射关系。最后,系统根据预测得到的FAP序列控制虚拟人面部模型合成虚拟人口型动画。本论文分别对两种方案合成的动画进行主客观评价,均证明两种方案的有效性,并且动画效果自然逼真。对比两种动画合成方案,第一种方案需要一个与之相适应的唇部模型,虽然其精准度较高,但通用性不强,且其语料库不易获得。第二种方案符合MPEG-4标准,使用FAP序列驱动的虚拟人面部模型合成动画,其通用性更强,更便于广泛应用。
其他文献
内模控制(Internal Model Control)是从20世纪50年代的Smith预估控制器演变而来的,至今经历了半个多世纪的发展,形成了较为完备的理论体系。内模控制本质上是一种鲁棒控制,响应
机器人是智能时代的典型产物,而移动机器人是各智能机器人中最具代表性的。进入21世纪以后,机器人对人类的作用更加突出,且随着技术的发展,人类对移动机器人的要求不断提高,
太阳直接日射逐日曝辐量预测是光伏并网发电系统研究的热点之一。太阳直接日射逐日曝辐量非线性、大间歇非平稳性以及混沌特性使得难以对其精确预测。本文将小波神经网络与相
随着科技的不断进步,人民收入的持续提高,汽车在我们的生活中越来越普及,这在提供了便利生活的同时,也带来了很多的交通问题。尤其近十多年来,无论是发达国家还是发展中国家,都不同
高速列车运行速度的不断提高,给列车安全运行的保障工作带来了更大的挑战。列车运行过程中,安装在列车各位置上的传感器将监测到大量的振动信号数据,对这些数据进行信号特征
研究发现传统的异步电机的直接转矩控制系统在低速运行(即额定转速的30%以下)时,转矩脉动大、电流和磁链轨迹畸变比较严重,响应速度慢,异步电机调速系统的控制精度以及动态性能指
无线传感器网络(Wireless Sensor Network,WSN)是由大量部署在监测区域的微型传感器节点以Ad Hoc方式组成的一个多跳通信的自组织网络,其目的是协作地感知、采集和处理网络覆盖
基于内容的图像检索是以反映图像信息特征为依据,通过某种相似性准则,找到与目标图像相似图像的一个过程。对于图像检索结果最重要的是特征提取过程和相似度的度量准则,前者反映
工程车辆由于其工作场合和工作性质的原因,对工作的安全性、可靠性以及实时性要求极为苛刻。采用总线控制技术与车载网络化技术,能够有效减少车辆线束,提高信息传输的速度和可靠
多机器人系统相较于单机器人而言,具备效率高、鲁棒性强、性能稳定等优势,使得其应用日益广泛。多机器人覆盖作为移动多机器人应用的一个重要分支,近年来取得了极大的进展,在