论文部分内容阅读
随着多媒体技术的发展,对各种媒体之间交互作用的研究越来越受到人们的关注。可视语音研究是这个领域的一个重要研究方向,在智能化人机交互界面等研究中占有重要地位。本文结合汉语的特点对视位参数自动估计、不同描述方法下的视位建模问题,以及音视频映射进行了系统的研究。论文的主要创新和研究成果包括以下四个部分:
1.在视位参数的自动估计中,提出一种基于颜色概率分布和边缘信息逐步求精的外唇轮廓跟踪算法,提高了外唇轮廓跟踪的准确性;在建立汉语视位分类集时,选用MPEG-4定义的人脸动画参数(FAP)作为视位描述参数,结合汉语发音特点通过分析语音短时能量提取汉语静态视位,设计建立了基于归一化距离的汉语音位视觉混淆树,并基于视觉混淆树确定汉语视位分类。这种方法分类结果稳定,并可确定合适的分类数。
2.在基于参数描述的视位建模中,提出一种基于权值融合的动态视位模型(WB-DVM)。该模型可以较好地描述语流中协同发音、语速及停顿时长变化对视位参数的影响;基于这一动态视位模型生成的视位参数和二维人脸网格模型,设计并实现了一个参数控制的汉语可视语音合成系统;主观听辨实验结果表明,合成视位图像在噪声环境下可以明显地提高语音的听辨识别正确率。
3.在基于非参数描述的视位建模中,提出一个由视位硬度因子及视觉距离构成的协同发音模型。该模型可以准确度量协同发音环境下音位的视觉相似性,有效处理跨越三音子的协同发音现象;基于这一协同发音模型,提出以最小代价函数为准则的语料库设计算法和语义与形状结合的不等长基元选取算法,提高了语料库的科学性和拼接基元选取的准确性;并设计实现了一个数据驱动的汉语可视语音合成系统。
4.在音视频映射的研究中,提出一种基于带反馈人工神经网络(ANN)的音视频映射算法。设计了最佳网络结构,经实验分析确定最佳语音参数、协同发音持续区间,提高了音视频预测的准确性。研究中发现前向协发音比后向协同发音对视位参数的影响更为明显。尝试将新的统计学习方法应用于音视频映射,提出了一种基于支持向量回归技术(SVR),并利用交叉校验和梯度下降法自动优化学习参数的音视频映射算法。实验结果表明,支持向量回归方法有较大的发展潜力。