论文部分内容阅读
目前,全球超过6.3亿人因为听力障碍给生活和学习造成极大的困扰。虽然现有的研究已经实现了手势到语音的转换,但是缺乏语音到手势的转换研究,这使得言语障碍者与外界沟通之间存在极大的障碍。为此,论文设计并实现了一个基于FPGA的语音到手势的转换系统。首先训练了孤立词的语音识别声学模型,同时根据《中国手语》录制了孤立词所对应的手势图像。在此基础上,利用FPGA实现了语音到手势的转换,将手势图像和训练好的孤立词声学模型存入FPGA的SDRAM中,将输入的孤立词语音信号与孤立词声学模型进行匹配,输出匹配度最优的结果,最终将识别出的孤立词对应的手势显示在FPGA的配套LCD液晶屏上。论文的主要工作和创新如下:1.实现了一个基于隐Markov模型(Hidden Markov Model,HMM)的语音孤立词识别系统。录制了20个孤立词的训练语料,采用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)作为声学特征,利用HTK实现了模型的训练。实验结果表明,本文实现的孤立词识别系统能够在特定人上达到100%的识别率。2.录制20个孤立词语音所对应的手势图像。在《中国手语》日常会话教材中选取0-10这11个阿拉伯数字,以及赞美、友好、拒绝、感恩、好的、鄙视、爱心、爱、差劲合计20个孤立词所对应的手势图像。将选取的孤立词手势图像用分辨率为240x320的BMP格式来保存,用于最终在液晶屏上手势图像的显示。3.实现了基于FPGA的语音到手势的转换系统。以NIOS II为软核处理器系统,将Nios II嵌入到FGPA芯片EP4CE115F29C7N中,完成语音信号实时采集、语音解码存储、语音识别模式匹配、手势图像液晶显示四个部分。对系统架构进行了单一模块的调试与整合调试。此外,结合SOPC特性,设计了人机接口,完成了一个基于FPGA平台的语音识别到手势图像显示的系统。4.对系统进行了测试。对硬件平台运行速度与软件平台运行速度进行了对比,结果表明FPGA硬件平台识别的时间比软件平台快30倍。对两个不同环境下的系统进行特定人和非特定人语音识别到手势显示识别率的测试,得出安静环境下特定人和非特定人的平均识别率分别为100%、82.6%,噪声的环境下特定人和非特定人的平均识别率分别为88.9%、72.6%。