使用HMM的人脸语音动画合成技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:netxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号和视觉信号是多媒体交互信息的主要载体.人们对语音、图像的处理技术已经有了比较深入的研究,但是对于语音和图像之间的内在关系的研究却还不够深入.作为综合考虑语音和图像的一种技术,智能人机接口技术尤其是虚拟人脸合成成为近年来国内外的一个热点研究领域.该项技术也被称为多模态(Multimodal)、视觉语音(Visual Speech)和说话人头(Talking Head).将语音和图像两种模态结合到一起,能够对单一使用某一种模态的不足进行合理、有益的补充,加深了信息的可理解性.通过虚拟人脸,可以增强人们与计算机的交互,而将语音和图像相结合同时也给相关的研究领域带来新的研究方法.例如,引入同步的人脸动画信息,可以提高在环境噪声较大、以及语音信号不稳定等情况下对语音识别与理解的识别率和稳健性.该论文通过分析研究已有的人脸语音动画合成技术,引申出一套使用改进的隐马尔可夫模型结构来存储语音和图像之间的内在联系,利用隐马尔可夫模型的既有算法来实现从新语音样本序列到新图像样本序列的映射的人脸语音动画合成方法.作者开发的实验系统,能够实现特定对象的语音动画合成,其结果具有照片真实感,通过使用平滑技术加强了人脸图像之间的平滑过渡,能够使得虚拟人脸更加真实.该论文的方法和结论,为进一步提高语音动画合成的实时性、真实感、以及适应性提供了一个比较好的理论基础和实验平台.该论文所完成的工作如下:1)充分调研了语音信号处理方法,实现了从语音信号中提取鲁棒的语音特征参数的方法.2)在人脸特征点提取方面,参考Active Appearance Models(AAM)技术【Cootes,l,2,4,Edwards,3,5】,通过较少手工标识样本的训练,系统可以自动的提取预定义的特征点坐标,并生成人脸特征参数矢量.3)通过对隐马尔可夫模型应用技术的大量调研和分析,提出修改隐马尔可夫模型的存储结构以及部分隐马尔可夫模型算法,使之适用于该文开发的系统.4)使用改进的隐马尔可夫模型结构来实现从语音信号构造同步的、有照片真实感的语音动画序列.5)完成了一个基于改进的隐马尔可夫模型的语音驱动人脸动画实验系统,可以对该文的思想进行验证,同时也作为进一步研究工作的实验平台.
其他文献
通信技术的发展,使车载自组织网络(VehicularAd-hocNetwork,简称VANET)的研究逐渐成为无线领域一个重要方向。如今,VANET技术在智能交通(ITS)、车辆定位,LBS(Location Based Servic
在自然语言理解方面,符号主义与联接主义目前都相继遇到了巨大的障碍。在这种情况下,一种非常自然的考虑就是能否将两者结合在一起,来摆脱目前自然语言研究的困境。而语义神经网
现代远程教育是随着现代信息技术的发展而产生的一种新型的教育方式,它打破了传统教育时间和空间的限制,使人们可以在任何时间、任何地点进行学习,实现了教育资源的共享,也是
本文介绍了条形码、射频卡以及液晶显示器的原理和实现方法,并在此基础上讨论了所研制的基于条形码和射频卡的无动力旋臂的门控检票系统。该系统由上位机和下位机两大部分组成
该文介绍了一个用于网络测量和网络数据分析的系统的设计和初步实现.此系统的功能包括TCP和UDP协议解码、网络流量测量、截获数据帧、网络负载制造、数据包的路由信息分析等.
多年来,由于电子商务系统逻辑的复杂性和互联网技术的局限性,企业在实施电子商务的过程中逐步发现集成模块之间存在着过强的耦合,这种耦合给电子商务的发展和广泛应用带来了许多
在现今的社会当中,稍微留意一下就会发现,监控摄像头已充斥在我们生活与工作场所中的许多地方。在如今已网络化的现代社会中,网络实时视频监控也得到的迅速的发展。但各监控设备
本文研究了网络加密传输的一些基本理论和实践方法,对公开密钥和对称密钥加密的适用场合进行了讨论;并着重对非专利的Blowfish算法及其实现方法进行了讨论。在对各种加密技术作
目前在Internet/Intranet环境中,企业级应用系统大多采用三层或多层应用模式。为了方便开发、部署、运行和管理基于多层结构的应用,需要以网络和分布式计算的底层技术为基础,构建
Gnutella网络是典型的完全无中心的文件共享的P2P网络,近年来发展非常迅速。但是,Gnutella网络的可扩展性差,大量的冗余消息加重了网络负载,这些缺陷限制了Gnutella网络的进