驱动说话人头部动画的连续语音识别系统

来源 :中国航空学会信号与信息处理专业第六届学术会议 | 被引量 : 0次 | 上传用户:ansonx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为实现听觉/视觉驱动的说话人头部动画,本文建立了一个基于viseme(视觉领域的语音基本单位)的连续语音识别系统,它采用triseme的概念来考虑viseme的上下文相关性,识别语音为viseme图像序列.根据viseme图像及其相似度权值(VSW),本文定义了有166个问题的视觉问题集,用来建立triseme决策树,以实现triseme的状态捆绑及HMM参数共享.为比较系统性能,还定义了viseme图像相似度加权识别精度,并用嘴形圆度和VSW曲线中的突变点来评估说话人头部动画的平滑性.结果表明,与基于phoneme(听觉领域的语音基本单位)的系统相比,本文基于viseme的语音识别系统能给出更平滑和合理的嘴形图像序列和说话人头部动画.
其他文献
近年来,GIS领域出现了向三维发展的趋势,另外,VR技术的应用也不断推广,计算机图形技术、高级人机接口技术、科学计算可视化技术的发展为GIS与VR的结合提供了可能.本文介绍了V
时间管理服务作为HLA的核心内容,本文首先简要介绍了时间管理的一些基本概念,然后以仿真应用为基础,介绍了联邦成员开发过程中,时间推进策略选择的依据和步骤.最后着重论述了
Viseme是在语音驱动说话人头部动画模型中常用的一种音频-视频模型.为了得到更精确的模型就要考虑驱动语音的上下文信息,因此引入了Triseme模型.但是引入Triseme模型后,随着
GCZ串行总线通信协议规定了GCZ总线主控制器和终端之间最基本的通信方式,它是GCZ总线实现高速串行通信的基础.规定了串行通信命令字格式、数据块格式和字段,并对GCZ的通信过
本文首先介绍了一种基于差别子空间的语音识别算法,并从理论上对该算法进行了分析.然后用MATLAB实现了算法,并进行了大量的孤立词语音识别实验.理论和实验表明,基于差别子空
国际移动卫星通信中使用了多种标准的语音编码技术.本文重点介绍了航空标准的两种语音编码方法的编码原理及主要技术.
FPGA实现DSP是一种硬件实现数字信号处理,因此在处理速度上有可能超过通用的DSP器件,在实现高性能的DSP时,不仅具有明显的优势,而且有可再编程、高度灵活和快速上市的特点,但
本文基于自回归滤波器技术对声纳信号处理中舰船噪声的仿真进行了研究,并采用了Levinson-Durbin快速算法来求得滤波器的各阶系数,已获得不同谱状的较好仿真结果.
本文根据合成孔径雷达(SAR)目标多普勒回波信号本质上为线性调频信号的特点提出一种在分数阶Fourier域对SAR运动目标的多普勒参数进行精确估计,并采用估计参数构造参考函数,
本文分析了安全防范身份认证的社会需求,阐述了人脸和语音特征识别及数据库模型的建立,实验方案,重点分析了模型建立过程中存在的一些关键技术.