【摘 要】
:
唇读技术,不仅可以作为语音识别的辅助手段应用于多模态语音识别系统中,以增强系统的鲁棒性与准确性,突破应用场景的限制;还能够应用于辅助听力障碍人士进行正常交流与语言功
论文部分内容阅读
唇读技术,不仅可以作为语音识别的辅助手段应用于多模态语音识别系统中,以增强系统的鲁棒性与准确性,突破应用场景的限制;还能够应用于辅助听力障碍人士进行正常交流与语言功能恢复,以及作为新型编码用于特殊场景。传统的基于二维视频图像的唇读研究已经取得了很大的进展,随着三维成像技术的发展,唇读研究有了更广阔的发展前景。论文旨在研究基于Kinect传感器获取人脸三维数据的实时唇读技术。研究内容主要包括数据采集、唇区检测及定位、特征提取和训练识别过程。首先,基于Kinect设备采集语料数据。其次,针对Kinect Face Tracking SDK获取的脸部三维坐标信息,进行数据预处理,构建人脸的唇动三维模型;并根据CANDIDE-3与MPEG-4标准人脸模型的对应关系,进一步确定唇区的18个特征点所在位置,并增加唇区周边的19个特征点共同作为感兴趣区域。然后,对于感兴趣区域的37个特征点,论文提取出4种三维空间特征,分别为坐标原点与感兴趣区域特征点构成的坐标向量特征、根据唇区轮廓形状计算得到的几何比例特征、基于KNN分类算法选取的唇区角度特征、基于标准人脸模型选取以及基于唇动特征自定义的空间角度特征。上述特征更全面地表征唇动信息,同时有效降低数据采集时说话者的姿态、朝向等偏差所带来的影响。然后,论文对4种空间特征分别采用分段线性插值方法进行规范化,并使用KNN分类算法进行特征评选环节,以得到最具代表性的空间特征,加以融合形成最终的空间唇读特征。最后,论文采用KNN分类算法与集成学习算法进行训练识别,其中使用KNN分类算法验证了空间唇读特征的高效性与实时性;相比于Bagging集成学习方法,K-近邻集成法得到了更好的分类效果,更加适用于实时唇读系统。
其他文献
轮辋是车辆行驶系统中支撑轮胎的主要部件,其质量将直接影响车辆驾驶的平稳性、安全性以及车辆的使用寿命。随着国民经济的发展,人们的生活水平逐步提高,轮辋制造商越来越来
纤维增强复合材料(Fiber Reinforced Plastic,简称FRP)具有轻质、高强、耐腐蚀、抗疲劳等优点,越来越被广泛地应用于土木工程领域。从上世纪90年代起,国内外学者对FRP加固混
本研究于2015-2016年6-9月在郑州市农业气象试验站试验田内进行,选用黄淮海平原主推夏玉米品种浚单29为材料,采用70%透光率的遮阴网,从对弱光处理反应最敏感的时期(抽雄期)开始
多媒体技术的飞速发展推动了图像处理和显示技术的应用与发展。为了适应不同的观看需求,需要对图像的尺寸进行调整,以使其在不同终端设备上获得良好的显示效果。最简单的图像
随着经济的快速发展,大跨空间结构被广泛地应用在航站楼、体育馆、展厅等大型公用建筑,这类建筑物通常人口密集,一旦发生倒塌将造成严重的人员伤亡和财产损失,故对其进行抗倒
城市人口数量和空间规模的不断扩大推动了居民出行需求的增长,随之而来的交通结构不均衡和拥堵问题导致交通压力日益增大。为优化出行结构、缓解交通压力,在相关政策的大力倡导下,地面公交已逐渐成为居民日常的主要方式之一。作为运量大、低碳环保且性价比高的出行方式,目前公交出行在城市居民日常出行占据较大比重。因此以常规地面公交出行数据为基础,挖掘并归纳城市居民出行特征,对于改善出行服务水平、缓解交通拥堵、优化城
插入式柱脚转换节点是煤气化框架结构中连接上部钢结构与下部混凝土结构的关键构件,在地震作用下,其受力和变形对于整个结构抗震性能影响极大,因此对其进行抗震性能研究很有
细胞分裂素是天然存在的五大类植物激素之一,从多个方面影响植物的生长和发育。外源施加细胞分裂素不仅可以有效抑制光下拟南芥幼苗的根长和莲座叶的生长,而且还能抑制暗下幼
在大规模基础建设投资的推动下,新一轮的交通基础设施建设如高速铁路和地铁等带来了诸多的岩土工程问题。尤其是在沿海软黏土地区,由于软黏土具有高含水率、高压缩性和低渗透