论文部分内容阅读
在现实的汽车驾驶中,驾驶者经常要将手离开方向盘去控制各种设备,这显然给了汽车安全驾驶埋下安全隐患。将智能语音控制技术应用于车载领域,将改变汽车现有的人机信息交流方式,解放驾驶者的双手和双眼,使汽车具备更人性化魅力,体现个性化特色,提高驾车安全性。然而,虽然目前在实验环境中,语音识别技术已经具有很高的识别率,但是在实际车载的路况中,有来自马路环境、轮胎、引擎等各方面的噪声,导致语音识别率的急剧下降。噪声环境下单独依靠音频信息所得到很低的识别率,制约了车载语音控制的实际应用和发展。利用视觉信息辅助语音识别能够提高噪声环境下的语音识别系统的识别率。双模态语音识别系统采用的做法是,将音频视频信息相结合,通过加入检测视频特征,将语音识别和唇语识别相结合(我们称之为双模态识别),来提高在实际路面强噪声情况下的语音识别率。为了加快双模态车载语音控制系统的研发和实现,本文构建了一个嵌入式系统,重点在PC机平台上实现了一个双模态车载语音识别系统,为嵌入式双模态车载语音控制系统最终应用于实践提供了重要的基础。本文的主要工作有如下5点:(1)建立了一个适用于双模态车载语音控制系统的嵌入式Linux系统平台,并且为了能支持多款USB摄像头设备、增强适用性,修改了bootloader还有Linux内核中的分区大小,以便把更多的USB摄像头驱动编译进内核、支持更大的内核。(2)研究了一款在Linux系统下比较新的IDE软件开发平台“Qt Creator”,以及如何搭建一个嵌入式Linux软件开发环境。使用Qt Creator进行嵌入式Linux软件开发,将会大大便利于开发人员进行软件开发,并且加快软件开发的速度。(3)在PC机平台上设计并实现了一个基于Linux的双模态车载语音在线识别系统。系统由下面几个模块组成:识别器管理模块、语音采集模块、视频采集模块、语音特征提取模块、视频特征提取模块(由唇动定位模块、唇动特征提取模块组成)、识别模块、GUI模块。该系统以多线程的方式实现,每个模块都是一个单独的线程,以提高系统的处理效率。语音采集模块,是通过Linux的ALSA提供的API编程实现的。而视频采集模块,是通过Linux的V4L2(Video for Linux 2)提供的API编程实现的。在唇动定位模块中,先进行人脸检测,然后再通过边缘检测等手段定位到嘴唇。对于视频图像格式的转换,本设计对其算法进行了优化,并介绍了几种优化的算法,并且对唇动定位模块等进行了一定的优化。(4)研究了基于多色彩空间的自适应嘴唇区域定位算法[1],并对其缺陷进行了分析,提出了一种唇动检测算法。先通过Adaboost算法进行人脸检测,然后再通过边缘检测等方法定位到嘴唇,并对其进行了优化和提高了正确率。(5)对本系统的实验结果及性能进行评估和讨论。各个模块能够正常工作,而且它们之间能正确地进行数据的传递。对于本文提出的唇动定位方法,实验结果显示,该方法的正确率能达85%以上。