论文部分内容阅读
随着信息化社会的不断加快,人类迫切地需要功能更加强大、界面更加友好、更趋向人性化的人机交互技术。单一模式的视觉或者听觉处理模型已经不能满足人们日常的生活需要,以视听觉信息的认知计算为代表的新型技术逐渐引起了人们的关注。 课题以语音识别技术为背景,将语音的视觉信息引入到语音识别系统中,通过对视听信息融合方法的研究和改进,解决了噪声环境下单语音系统识别效率低下的问题。主要研究内容如下: 在视听双模态语音识别系统中,人脸嘴部视觉特征的检测提取与视听特征融合算法是提高系统识别效率的关键。本文针对传统视觉特征提取过程中存在的视觉特征数据量大、时间复杂高、重要特征丢失等问题,采用图像可听化技术对视频图像进行特征提取,基于认知神经科学中感知替代理论的启发,将二维图像信息转换成一维声音信息,既保留了重要的视觉特征又降低了系统的时间复杂度。同时以视听交叉感知的神经生理学为理论基础,针对决策级融合的缺点,以遗传算法优化的 BP神经网络为融合模型,对视频、音频特征进行特征级融合,模拟了视听神经元对信息的处理过程。 实验结果表明,经过图像可听化处理后视觉特征包含了一定的语音信息,在噪声环境下的识别效果比较稳定,神经网络的融合模型提高了系统的鲁棒性,具有一定的理论与应用价值。