论文部分内容阅读
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition, ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入。近年来,由于电子信息和计算机互联网的迅猛发展,使得语音识别技术也取得了阶段性进展。随着嵌入式产品功能的日益强大,基于嵌入式设备的语音识别技术成为当前的一个研究和应用热点。一个能识别较大词汇量、具有较好实时性、系统资源要求低和识别率高的语音系统,具有很高的实用价值和巨大的市场潜力。论文首先对语音识别技术的历史背景和国内外研究现状进行了介绍,然后对语音识别过程中的各个环节进行理论研究和分析。在预处理过程中,对预加重、分帧、加窗、短时能量和过零率相结合的端点检测进行分析;在特征提取过程中,阐述LPC参数、LPCC参数和MFCC参数各自的实现原理以及MFCC参数相对于LPCC参数和LPC参数的优势,解释选择MFCC参数的原因;在识别过程中,介绍了几种常用的识别算法,并着重分析了隐马尔可夫模型(HMM)的结构和原理。针对孤立词、非特定人和大词汇量语音识别过程中,识别时间过长,计算量过大,内存占用过多,对系统硬件资源要求过高的缺点,提出改进的语音分组识别算法。首先,对MFCC参数采用分段均值降维方法,巧妙地避免了不同语音长度(帧数)的时间规整问题,从而确保分组具有较高稳定性。接着,为了消除K均值聚类分组时初值选择随机性对分组稳定性的影响,以及语音模板过多导致模板之间区分度下降而对分组造成困难,提出经验调整算法,进一步增加分组稳定性。然后,为了使分组的稳定性有理论保证,结合数理统计相关知识,提出置信度检验算法,从数学上证明分组稳定。最后,针对不同的分组情况,识别率和识别时间各不相同,提出最大值决策法确定哪种分组为最佳分组,从而最大限度地满足用户对识别率和识别时间的双要求。为了检验该方法的效果,在PC机的Matlab平台上进行测试。通过与传统HMM算法以及传统分组算法进行比较,对实验数据进行分析。结果表明:改进的语音分组识别系统分组稳定性很高,识别时间明显减少,计算量减少50%以上,内存占用量明显减少,也降低了对系统硬件资源的要求,唯一不足是识别率略微下降。总体看来,该方法有效。