计算机唇读技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:ahaulxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类对语言的感知是多通道的,人在识别和理解他人说话内容时除了利用听觉来感知信息外,常常还利用了视觉信息如唇动来提高准确性。对于噪声环境下或是听力障碍者的语言感知而言,视觉信息的重要性则更为突出。计算机唇读技术正是在这样一种背景需求下产生并涉及到计算机视觉、图像处理、模式识别、人机交互等诸多领域,它是指利用计算机对说话者的唇动等视觉视频信息进行分析以识别出说话内容的过程,并可与听觉语音信息融合以进一步提高识别率,从而使人机交互更加自然。 本文在建立了汉语视音频双模态数据库SEU-CAVD的基础上,针对非特定人自动语音识别技术进行了系统研究,主要创新点如下: 1)在语料库的分割方面:将语音波形图的聚类问题转化为图像处理中的直方图分割问题并进而提出了一种新的连续语音分割方法,有效避免了传统方法依据预设阈值分割可能产生的误检、漏检,提高了分割的准确性。 2)在唇部定位及跟踪方面: 提出了一种结合YCbCr、HSV两种颜色空间优点的(CbCrS)肤、唇色模型,增强了肤、唇色的分离效果,并通过在Fisher变换的基础上加入亮度预处理、Otsu法、唇色验证的级联后处理环节,获得了更好的二值化结果,提高了唇部定位的精确性。 同时提出采用高斯混合模型对嘴唇区域进行采样、建模,将传统的肤色和唇色分开处理的过程合二为一,不但使采样操作量减少了一半,而且通过一次建模即可同时获得二者的聚类分布,符合了人机交互走向自然化的趋势。 3)在唇动特征提取方面: 针对形状参数特征可靠性低和信息的不全面性,引入精定位区域参数特征和能量特征进行唇读识别,在依然具有低维度优点的前提下,纯视觉通道最高识别率从36.25%提高到44.25%。 在基于能量的唇动视觉特征提取方面,提出结合全局低频信息和局部增强边缘信息进行唇读识别,识别性能优于其中任一单特征的识别性能,并在二维DCT系数维数取49和99时分别获得了54.00%和55.50%的纯视觉通道识别率。 4)在视、音频通道融合方面: 从改进融合模型的角度出发,在邓勇方法[127]的基础上,提出了综合考虑证据可信度和重要度的改进融合方法,并改进了音频权系数与信号信噪比之间的关系式,据此可按音频质量自动确定更合理的融合系数,融合识别性能优于经典Dempster-Shafer方法和邓勇方法。
其他文献
本文通过对荣华二采区10
期刊
该文采用有限体积法对描述前池流动的控制方程组进行了离散,并应用标准的紊流模型使方程组封闭求解.差分格式选用的是混合格式.对固壁边界条件采用壁面函数法.通用微分方程求
他克莫司(tarcrolimus, FK-506)是一种重要的大环内酯类免疫剂,目前已成为国内肝脏及肾脏移植后排斥反应的临床一线药物,但国内市场绝大部分被日本和美国等国家占领,开发具有
为了提高汽轮发电机冷却风扇的效率,该文对上海汽轮发电机有限公司的一台300MW的汽轮发电机的冷却风扇的效率进行了分析,发现该风扇存在较大的冲击损失.进一步的研究发现,在
发展太阳能光伏产业是解决化石燃料短缺和环境污染的有效途径。作为主要的太阳能转换材料,高纯多晶硅制备工艺的完善和发展是目前亟待解决的关键问题。以硅烷为原料的流化床法,具有能耗低、成本低、污染小的优点,是太阳能光伏产业发展的关键技术之一。由于硅烷的气相沉积反应机理复杂,与流化床内的气-固流动相互耦合,使流化床CVD反应器的研究开发和放大设计面临较大困难。本文采用计算流体力学的方法(CFD),用群体平衡
在现代服装设计向多元化、国际化转变的过程中,国际时装舞台也在发生着变化.近几年,以刺绣为代表的传统元素开始频繁出现在一些国际著名品牌的设计中.这些传统的刺绣元素赋予
综合治理SO的污染问题具有十分重要意义.人们已对烟气脱硫进行了许多研究,但多数由于成本大或脱硫率低而未被采纳.该文以降低成本、提高脱硫率为目的,研究了低温湿式石灰作为
该论文在文献检索和分析风机运行现状的基础上,确定了主通风机在线监测和故障诊断的任务.针对主通风机的理论特性和结构特点,采用局变环节差压风量监测原理监测风机的性能参
酚类化合物是非常重要的有机化工原料,主要来源于煤焦油和煤液化油。目前,煤基油中提纯出的酚类物质纯度偏低,造成在诸多领域酚类物质供不应求。高效地从煤基粗酚中分离精制出高
为满足压气机工程设计实践对三维粘性流体力学计算软件的要求,该文提出了一种多叶片排轴流式压气机全工况气动性能快速三维流场计算方法.该文结合可压缩雷诺平均N-S方程和近