论文部分内容阅读
随着信息化社会的不断发展,一种更友好、更自然、更智能化的人机交互技术逐渐成为人们追寻的目标。作为人机交互技术的一个重要研究热点,语音识别技术已经逐渐渗透到人们生活的方方面面。然而,传统的仅使用音频单一通道的语音识别技术已经不能再满足人们复杂的日常生活需要,一种基于视觉信息和听觉信息相结合的新型语音识别技术越来越引起人们的关注。一个高性能的视听融合语音识别系统主要取决于音视频特征的提取和融合模型的建立。基于对人耳听觉特性和系统实时性处理要求的分析,在特征提取方面,本文提取了视听的双模态特征,其中音频特征采用了在语音识别领域具有代表性的MFCC参数,视频特征采用了能有效表征语音信息的唇部轮廓特征。在视听融合模型建立时,通过对现有的两个处理过程的耦合隐马尔科夫模型进行改进和完善,建立了基于初始化、重估和识别三个处理过程的耦合隐马尔科夫模型,并在识别阶段利用自适应的权值选取方法,确定了不同信噪比下两通道信息的最优权值,利用该模型融合视听特征并进行语音识别。采用上述方法,本文对自己建立的特定人数据库和康奈尔大学的先进多媒体实验室的数据库进行了实验,取得了较高的识别率。实验结果表明,基于双通道的语音识别与单通道相比明显提高了系统的识别效率,尤其在复杂环境下,视听特征的互补性可以有效弥补噪声对单通道信息的干扰;基于自适应权值的耦合隐马尔科夫模型具有较好的适用性,具有一定的理论和应用价值。