驱动说话人头部动画的连续语音识别系统

来源 :中国航空学会信号与信息处理专业第六届学术会议 | 被引量 : 0次 | 上传用户：ansonx

【摘要】

：

为实现听觉/视觉驱动的说话人头部动画,本文建立了一个基于viseme(视觉领域的语音基本单位)的连续语音识别系统,它采用triseme的概念来考虑viseme的上下文相关性,识别语音为v

【作者】

：

蒋冬梅谢磊赵荣椿

【机构】

：

西北工业大学计算机科学与工程系

【出处】

：

中国航空学会信号与信息处理专业第六届学术会议

【发表日期】

：

2002年10期

【关键词】

：

说话人头部动画 viseme triseme决策树 viseme图像相似度加权语言识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为实现听觉/视觉驱动的说话人头部动画,本文建立了一个基于viseme(视觉领域的语音基本单位)的连续语音识别系统,它采用triseme的概念来考虑viseme的上下文相关性,识别语音为viseme图像序列.根据viseme图像及其相似度权值(VSW),本文定义了有166个问题的视觉问题集,用来建立triseme决策树,以实现triseme的状态捆绑及HMM参数共享.为比较系统性能,还定义了viseme图像相似度加权识别精度,并用嘴形圆度和VSW曲线中的突变点来评估说话人头部动画的平滑性.结果表明,与基于phoneme(听觉领域的语音基本单位)的系统相比,本文基于viseme的语音识别系统能给出更平滑和合理的嘴形图像序列和说话人头部动画.

其他文献

虚拟地理信息系统—地理信息技术发展方向

近年来,GIS领域出现了向三维发展的趋势,另外,VR技术的应用也不断推广,计算机图形技术、高级人机接口技术、科学计算可视化技术的发展为GIS与VR的结合提供了可能.本文介绍了V

会议

虚拟现实地理信息系统虚拟地理信息系统数字地球三维数据模型

HLA时间管理的应用

时间管理服务作为HLA的核心内容,本文首先简要介绍了时间管理的一些基本概念,然后以仿真应用为基础,介绍了联邦成员开发过程中,时间推进策略选择的依据和步骤.最后着重论述了

会议

高层体系结构时间管理服务前瞻值仿真时间推进仿真

语音驱动说话人头部中的基于决策树的Triseme建模方法

Viseme是在语音驱动说话人头部动画模型中常用的一种音频-视频模型.为了得到更精确的模型就要考虑驱动语音的上下文信息,因此引入了Triseme模型.但是引入Triseme模型后,随着

会议

VisemeTriseme决策树视频问题集合口形相似度音频-视频模型

GCZ串行总线通信协议及其实现

GCZ串行总线通信协议规定了GCZ总线主控制器和终端之间最基本的通信方式,它是GCZ总线实现高速串行通信的基础.规定了串行通信命令字格式、数据块格式和字段,并对GCZ的通信过

会议

串行总线通信协议奇偶校验

语音识别差别子空间法

本文首先介绍了一种基于差别子空间的语音识别算法,并从理论上对该算法进行了分析.然后用MATLAB实现了算法,并进行了大量的孤立词语音识别实验.理论和实验表明,基于差别子空

会议

差别子空间语音识别共性矢量

Inmarsat航空标准语音编码技术

国际移动卫星通信中使用了多种标准的语音编码技术.本文重点介绍了航空标准的两种语音编码方法的编码原理及主要技术.

会议

语音编码航空话音通信语音压缩移动卫星通信

FPGA实现DSP功能的结构和算法变换特性

FPGA实现DSP是一种硬件实现数字信号处理,因此在处理速度上有可能超过通用的DSP器件,在实现高性能的DSP时,不仅具有明显的优势,而且有可再编程、高度灵活和快速上市的特点,但

会议

FPGADSP结构变换算法变换数字信号处理

舰船噪声信号仿真技术的研究

本文基于自回归滤波器技术对声纳信号处理中舰船噪声的仿真进行了研究,并采用了Levinson-Durbin快速算法来求得滤波器的各阶系数,已获得不同谱状的较好仿真结果.

会议

舰船噪声AR滤波器仿真声纳信号处理

基于分数阶Fourier变换的SAR运动目标参数估计

本文根据合成孔径雷达(SAR)目标多普勒回波信号本质上为线性调频信号的特点提出一种在分数阶Fourier域对SAR运动目标的多普勒参数进行精确估计,并采用估计参数构造参考函数,

会议

分数阶Fourier变换合成孔径雷达多普勒参数估计运动目标成像时频分析

用于安全防范身份认证的人脸和语音特征识别及数据库研究

本文分析了安全防范身份认证的社会需求,阐述了人脸和语音特征识别及数据库模型的建立,实验方案,重点分析了模型建立过程中存在的一些关键技术.

会议

身份认证人脸特征识别双模态数据库安全防范多模态识别

驱动说话人头部动画的连续语音识别系统

与本文相关的学术论文