汉语视位建模及可视语音的研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:ynhz009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的发展,对各种媒体之间交互作用的研究越来越受到人们的关注。可视语音研究是这个领域的一个重要研究方向,在智能化人机交互界面等研究中占有重要地位。本文结合汉语的特点对视位参数自动估计、不同描述方法下的视位建模问题,以及音视频映射进行了系统的研究。论文的主要创新和研究成果包括以下四个部分: 1.在视位参数的自动估计中,提出一种基于颜色概率分布和边缘信息逐步求精的外唇轮廓跟踪算法,提高了外唇轮廓跟踪的准确性;在建立汉语视位分类集时,选用MPEG-4定义的人脸动画参数(FAP)作为视位描述参数,结合汉语发音特点通过分析语音短时能量提取汉语静态视位,设计建立了基于归一化距离的汉语音位视觉混淆树,并基于视觉混淆树确定汉语视位分类。这种方法分类结果稳定,并可确定合适的分类数。 2.在基于参数描述的视位建模中,提出一种基于权值融合的动态视位模型(WB-DVM)。该模型可以较好地描述语流中协同发音、语速及停顿时长变化对视位参数的影响;基于这一动态视位模型生成的视位参数和二维人脸网格模型,设计并实现了一个参数控制的汉语可视语音合成系统;主观听辨实验结果表明,合成视位图像在噪声环境下可以明显地提高语音的听辨识别正确率。 3.在基于非参数描述的视位建模中,提出一个由视位硬度因子及视觉距离构成的协同发音模型。该模型可以准确度量协同发音环境下音位的视觉相似性,有效处理跨越三音子的协同发音现象;基于这一协同发音模型,提出以最小代价函数为准则的语料库设计算法和语义与形状结合的不等长基元选取算法,提高了语料库的科学性和拼接基元选取的准确性;并设计实现了一个数据驱动的汉语可视语音合成系统。 4.在音视频映射的研究中,提出一种基于带反馈人工神经网络(ANN)的音视频映射算法。设计了最佳网络结构,经实验分析确定最佳语音参数、协同发音持续区间,提高了音视频预测的准确性。研究中发现前向协发音比后向协同发音对视位参数的影响更为明显。尝试将新的统计学习方法应用于音视频映射,提出了一种基于支持向量回归技术(SVR),并利用交叉校验和梯度下降法自动优化学习参数的音视频映射算法。实验结果表明,支持向量回归方法有较大的发展潜力。
其他文献
随着Internet的迅速发展,网络安全变得日益重要,该论文主要探讨了网络系统底层WinPcap数据包俘获的体系结构和数据包分析的应用,对协议信息内容进行分析,以及研究入侵检测.作
知识工程是人工智能学科的重要研究领域,知识共享和重用是知识工程研究的主要问题,而本体是解决这一问题的有效方法.近几年本体已经成为计算机领域的研究热点,主要研究本体表
该课题采用高速CPU芯片和嵌入式软件技术解决了用户计算机和隔离器之间的网络通信问题.采用虚拟双硬盘技术用软件解决了单硬盘的分区隔离问题,实现了用单硬盘来代替双硬盘完
作为J2EE(Java 2 Platform Enterprise Edition)应用服务器重要组成部分的分布事务管理器遵循JTS(Java Transaction Service)和JTA(Java Transaction API)规范,提供J2EE分布计
该课题采用B/S多层软件的结构,实现高速公路收费系统的各子功能,通过WEB系统来实现收费系统的网络管理.该论文的第一章介绍了课题的背景及B/S软件结构的基本概念,以及多层软
近年来,随着互联网的发展,移动互联网、物联网的普及,可探测和采集的数据急剧增加。随着数据量的增加,人们开始认识到蕴含在数据中巨大的财富,并开始以各种形式挖掘、开采,数据渗透
该文对ME部件的设计分为四部分:图像组控制器、运算部件、控制部件和后处理部件.该文采用一种封闭的图像组格式,由图像组控制器实现对其控制.采用脉动阵列做为运算单元,在课
本文首先分析了传统分布式计算技术CORBA、DCOM和RMI的特点,揭示了其固有的不足及缺陷:都不太适合于在Internet这样松散耦合、异构的、有防火墙的网络环境下进行电子商务应用系
该文所做的工作是国家863科研项目—构件化嵌入式操作系统及其开发环境研制的一部分.目标是设计并实现一个构件化、嵌入式的TCP/IP协议栈JBEIP.该文的重点是如何使协议栈满足
该文的工作主要集中在对包含有特殊信息内容的文本,进行的有害度评测上.参考以往文本过滤系统所采用的技术,我们发现在这个特定领域,特殊应用上,它们有明显的不足之处.该文根