论文部分内容阅读
近年来,计算机唇读技术作为辅助语音识别的手段,受到越来越多的研究者的关注。本文对国内外现有的有关唇读识别技术和方法进行了综述,在比较现有唇读系统所采用的方法基础之上,针对基于视频的计算机唇读系统中唇部检测、唇读特征提取和唇语识别等关键技术,提出了自己的算法,并设计实现了唇读原型系统。本文的工作主要包括: (1) 提出了基于双重差分图像的唇部检测与定位方法。该方法实时跟踪口型序列的变化,在尺度归一、灰度归一、图像旋转修正的预处理基础上,对连续三帧视频图像进行双重差分运算,并对差分图像进行水平、垂直投影,利用其跃变点获得精确的唇部区域。该方法检测速度快,准确率高,在实时视频环境下,取得了令人满意的结果。 (2) 提出了SVD—QR和变形模板相结合的混合特征提取算法。对检测到的唇部图像,采用SVD—QR算法提取唇读的灰度特征,用变形模板方法提取唇读的几何特征,设计相应算法融合灰度特征与轮廓特征,获得包含大量视觉语音信息的特征向量。该混合式特征既包含了轮廓信息又包含灰度信息,且对几何变化、光照、噪声环境、尺度变化以及摄像头距离等因素不敏感。 (3) 提出了基于改进BP神经网络的唇读识别方法。运用口型的几何特征进行初分类,针对初分类的结果,对每类分别设计BP网络,并采用附加动量法和自适应学习速率法在大样本集上训练BP网络,该训练方法可避免网络陷入局部最小的问题,同时加快BP网络的收敛速度。口型初分类减小了BPNN分类算法的搜索空间,提高了识别速度,使得该系统更加适于实时视频环境,在包含大量视觉语音信息的混合特征的支持下,识别算法在对特定说话人和非特定说话人的发音口型识别中,均取得了满意的结果。 (4) 设计和开发了基于组件技术的唇读原型系统。采用面向对象的分析与设计思想,将系统划分为四个主要模块:图像采集模块、唇部检测与定位模块、唇读特征提取模块和唇读识别模块,并开发出相应的组件,降低了对象之间的耦合度,使得系统具有良好的可重用性和可移植性。