论文部分内容阅读
人类对语言的感知是多通道的,人在识别和理解他人说话内容时除了利用听觉来感知信息外,常常还利用了视觉信息如唇动来提高准确性。对于噪声环境下或是听力障碍者的语言感知而言,视觉信息的重要性则更为突出。计算机唇读技术正是在这样一种背景需求下产生并涉及到计算机视觉、图像处理、模式识别、人机交互等诸多领域,它是指利用计算机对说话者的唇动等视觉视频信息进行分析以识别出说话内容的过程,并可与听觉语音信息融合以进一步提高识别率,从而使人机交互更加自然。
本文在建立了汉语视音频双模态数据库SEU-CAVD的基础上,针对非特定人自动语音识别技术进行了系统研究,主要创新点如下:
1)在语料库的分割方面:将语音波形图的聚类问题转化为图像处理中的直方图分割问题并进而提出了一种新的连续语音分割方法,有效避免了传统方法依据预设阈值分割可能产生的误检、漏检,提高了分割的准确性。
2)在唇部定位及跟踪方面:
提出了一种结合YCbCr、HSV两种颜色空间优点的(CbCrS)肤、唇色模型,增强了肤、唇色的分离效果,并通过在Fisher变换的基础上加入亮度预处理、Otsu法、唇色验证的级联后处理环节,获得了更好的二值化结果,提高了唇部定位的精确性。
同时提出采用高斯混合模型对嘴唇区域进行采样、建模,将传统的肤色和唇色分开处理的过程合二为一,不但使采样操作量减少了一半,而且通过一次建模即可同时获得二者的聚类分布,符合了人机交互走向自然化的趋势。
3)在唇动特征提取方面:
针对形状参数特征可靠性低和信息的不全面性,引入精定位区域参数特征和能量特征进行唇读识别,在依然具有低维度优点的前提下,纯视觉通道最高识别率从36.25%提高到44.25%。
在基于能量的唇动视觉特征提取方面,提出结合全局低频信息和局部增强边缘信息进行唇读识别,识别性能优于其中任一单特征的识别性能,并在二维DCT系数维数取49和99时分别获得了54.00%和55.50%的纯视觉通道识别率。
4)在视、音频通道融合方面:
从改进融合模型的角度出发,在邓勇方法[127]的基础上,提出了综合考虑证据可信度和重要度的改进融合方法,并改进了音频权系数与信号信噪比之间的关系式,据此可按音频质量自动确定更合理的融合系数,融合识别性能优于经典Dempster-Shafer方法和邓勇方法。