论文部分内容阅读
手语是聋哑人群体进行交流的语言,它运用手部、面部、头部以及身体的空间运动来表达语义,是一种视觉空间语言。将其应用于计算机等交互界面中,可为听障人群提供更为形象生动的视觉语言表达界面,满足其同健听人一样享受现代文明的权利,改善其生活质量,具有广泛的社会意义。目前基于三维模型的手语合成方法及相关理论已经取得了较大的进展,但是在合成过程中由于数据采集与重定向过程中的误差,三维虚拟模型的手语动作的表达和聋人实际生活中的手语表达并不完全吻合,另外三维虚拟模型的真实感也影响了对手语的理解。而基于真人视频拼接的手语合成则完全反应了真人打手语的真实过程,相对三维模型来说提高了手语表达的真实感和准确度。 本文以提高真实感为目标研究基于多维语义模型的手语视频合成方法。提出面向中国手语视频的多维语义描述方法,建立包括手语词基元和过渡基元的多粒度数据库,研究基于视频多维语义信息的手语词基元选取、过渡路径生成、多部件合成和拼接视频平滑处理的问题,从而合成与文本一致的自然过渡的手语视频,最后综合手语视频的视觉特征和运动语义特征构建中国手语视频相似度评估模型,基于该模型对合成效果进行视觉和运动特征上的评估,以验证本文合成方法的有效性。 本文的研究有广泛的应用前景。所用到的动作建模,视频分析和理解等技术涉及计算机图形学、图像处理、计算机视觉等多学科,其成果可扩展到动作视频的分析、合成研究领域,丰富人机交互领域的理论成果。 本文针对二维手语视频合成进行研究,并取得了以下研究成果: 1.面向中国手语视频的多维语义描述方法。面向中国手语视频合成,提出了手语视频信息描述方法,建立了中国手语视频多维语义模型,为手语基元检索、过渡路径生成及过渡帧合成提供一致的语义描述。 2.基于语义的过渡路径生成方法。基于中国手语多维语义模型中量化的手语语义信息,优化拼接点估计与过渡路径计算,有效地增强了合成手语视频的真实感。 3.基于多部件图像的过渡帧合成。针对手语合成过程中,手语词组合数量巨大,导致难以获取完备的过渡序列集合这一问题,将手语视频按人体结构划分为多个部件,对手和胳膊进行完备形态库的建模,融合各个部件合成过渡视频帧,降低中国手语合成对采集数据量的需求。 4.面向中国手语视频的相似度评估模型。基于视觉特征和运动语义特征,提出并构建了中国手语视频相似度评估模型,该模型融合了视觉特征、形态及运动轨迹变化等运动特征。基于本文提出的模型对手语视频评价结果与主观评价一致,该模型可应用于相似手语视频的检索、手语视频语义的理解等领域。