论文部分内容阅读
人类的语言认知过程是一个多通道的感知过程。除声音信息通道外,唇动视觉信息可以作为一种重要的语音理解源。视觉语言具有许多潜在的应用,因此通过机器的自动唇语识别即唇读技术近年来成为一个备受关注的研究领域。大多数研究者的目的是把唇语识别和语音识别相融合,以提高语音识别的正确率。不同于这些研究,本文研究的目的是把唇读技术应用于语言残疾者的康复工程中,最终设计一个视觉语言驱动的实时语音合成系统。因此,本文主要研究了唇读中的一些关键技术并实现了一个基于孤立词识别的唇读系统。本文首先介绍了目前唇读研究的现状与发展水平,详细阐述了唇读研究的内容和方法,以及唇读研究的意义。在此基础上,提出了本文的唇读系统实现方案,该系统主要包括视觉前端、视觉特征提取单元和唇语识别理解单元三部分。视觉前端主要是把人说话时的唇动序列图像实时送入计算机,并对唇进行定位和跟踪。因此本文设计了一个基于USB的图像采集系统,该系统采用专门的视频处理芯片对模拟视频信号进行处理,然后采用CPLD、DSP和USB技术实现对数字视频信号的采集和传输。该系统设计合理,易于实现,同时具有连接方便,即插即用等优点。视觉特征提取单元首先采用一种唇色滤波器对图像进行预处理,增强了唇色,然后采用主动轮廓模型算法实现口型轮廓的提取和跟踪。文中采用了一种改进的主动轮廓模型算法,该算法引入作用方向可以自适应变化的外加强制力,使控制点能够不依赖于初始轮廓而快速收敛到目标的真实轮廓,且初始轮廓自动确定,控制点的数目可以自适应地改变。该主动轮廓模型算法可以实现对唇型轮廓的快速提取。唇语识别和理解单元是利用视觉特征提取单元提供的口型特征参数,采用隐马尔可夫模型(HMM)训练和识别图像序列的发音类。HMM过程是一个双重的随机过程,这与人类语言的唇动过程是相吻合的。为提高系统识别的正确率,系统设计中采用了连续型隐马尔可夫模型。文中详细讨论了在使用HMM中的模型初始化、参数训练和识别问题并给出了实验结果。本文设计的唇读系统在对特定人5个孤立词的实验中,可以达到61%的识别率。论文最后对全文进行了总结并对唇读技术的发展进行了展望。