唇读技术的研究及其应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:cnyy20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类的语言认知过程是一个多通道的感知过程。除声音信息通道外,唇动视觉信息可以作为一种重要的语音理解源。视觉语言具有许多潜在的应用,因此通过机器的自动唇语识别即唇读技术近年来成为一个备受关注的研究领域。大多数研究者的目的是把唇语识别和语音识别相融合,以提高语音识别的正确率。不同于这些研究,本文研究的目的是把唇读技术应用于语言残疾者的康复工程中,最终设计一个视觉语言驱动的实时语音合成系统。因此,本文主要研究了唇读中的一些关键技术并实现了一个基于孤立词识别的唇读系统。本文首先介绍了目前唇读研究的现状与发展水平,详细阐述了唇读研究的内容和方法,以及唇读研究的意义。在此基础上,提出了本文的唇读系统实现方案,该系统主要包括视觉前端、视觉特征提取单元和唇语识别理解单元三部分。视觉前端主要是把人说话时的唇动序列图像实时送入计算机,并对唇进行定位和跟踪。因此本文设计了一个基于USB的图像采集系统,该系统采用专门的视频处理芯片对模拟视频信号进行处理,然后采用CPLD、DSP和USB技术实现对数字视频信号的采集和传输。该系统设计合理,易于实现,同时具有连接方便,即插即用等优点。视觉特征提取单元首先采用一种唇色滤波器对图像进行预处理,增强了唇色,然后采用主动轮廓模型算法实现口型轮廓的提取和跟踪。文中采用了一种改进的主动轮廓模型算法,该算法引入作用方向可以自适应变化的外加强制力,使控制点能够不依赖于初始轮廓而快速收敛到目标的真实轮廓,且初始轮廓自动确定,控制点的数目可以自适应地改变。该主动轮廓模型算法可以实现对唇型轮廓的快速提取。唇语识别和理解单元是利用视觉特征提取单元提供的口型特征参数,采用隐马尔可夫模型(HMM)训练和识别图像序列的发音类。HMM过程是一个双重的随机过程,这与人类语言的唇动过程是相吻合的。为提高系统识别的正确率,系统设计中采用了连续型隐马尔可夫模型。文中详细讨论了在使用HMM中的模型初始化、参数训练和识别问题并给出了实验结果。本文设计的唇读系统在对特定人5个孤立词的实验中,可以达到61%的识别率。论文最后对全文进行了总结并对唇读技术的发展进行了展望。
其他文献
马钢、唐钢发挥设备优势,先后采用薄板坯连铸连轧流程(TSCR)生产冷轧用钢,但特有的TSCR工艺制度导致生产的热轧板屈服强度过高、延伸性能差。为此,马钢、唐钢分别与连铸中心签订
在图像导航手术过程中,需要对手术针相对于目标的位置和方向进行全程精确定位。这个任务通常是由一个手术针导航系统执行的,它用于在实时的超声图像中确定手术针的位置和方向。
随着现代工业和科学技术的发展,智能测量仪表在工业生产和科学研究等领域的应用都获得了巨大的发展。结合微处理器与微型计算机的高速、高精度信号检测系统是现代检测技术发展
目前铝热法生产的硼铁合金受铝含量的影响,已满足不了高新产品的质量要求,迫切需要一种可以制备低铝硼铁合金的方法,以适应市场的需求。本文针对硼铁的制备方法和应用进行了概述
该论文的研究目的是通过对图像导航手术系统中光学三维定位技术的研究,为图像导航手术中手术器械定位系统提供一个快速定位方案。 怎样实现对目标的快速检测是该文的研究重
目的:研究缬草提取物(VE)对兔心室肌细胞跨膜动作电位时程(APD)、钠电流(I_(Na))、L-钙电流(I_(Ca-L))、短暂外向钾电流(I_(to))、延迟整流钾电流(I_K)、内向整流钾电流(I_(Kl))、三磷酸腺苷敏感性钾电流(I_(KATP))的影响,以探讨其抗心律失常作用的细胞电生理机制。 方法:使用酶解法分离单个兔心室肌细胞。采用全细胞膜片钳技术,在电压钳模式下记录不同浓度
本文通过对比借助CAT软件翻译与传统翻译的不同,旨在探讨使用CAT软件培养学生汉英翻译能力的必要性及对策研究.同时,学生的汉英翻译能力从应试翻译也需要转变为翻译应用能力
全程自养脱氮,即Deammonification,是一种新型的污水脱氮工艺。它是指在同一反应器中,在限氧和较高pH值条件下,完全由自养菌群作用将氨氮转化为氮气而除去的现象。它于90年代后期
近年来,心血管疾病的发病率日益增加。在心血管疾病的研究中发现,室性的心脏功能衰退和机能性病变而导致的心脏疾病占有很大的比例。室性心动过速(VT,ventriculartachycardia)和
铸坯的洁净度是铸坯质量的一个重要的指标,提高铸坯洁净度是提高铸坯质量的一个关键,因此,为了满足日益提高的用户要求,就必须不断地提高铸坯的洁净度。 本文在分析总结国内外