基于HMM的语音分组识别系统的研究

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:mooyee6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition, ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入。近年来,由于电子信息和计算机互联网的迅猛发展,使得语音识别技术也取得了阶段性进展。随着嵌入式产品功能的日益强大,基于嵌入式设备的语音识别技术成为当前的一个研究和应用热点。一个能识别较大词汇量、具有较好实时性、系统资源要求低和识别率高的语音系统,具有很高的实用价值和巨大的市场潜力。论文首先对语音识别技术的历史背景和国内外研究现状进行了介绍,然后对语音识别过程中的各个环节进行理论研究和分析。在预处理过程中,对预加重、分帧、加窗、短时能量和过零率相结合的端点检测进行分析;在特征提取过程中,阐述LPC参数、LPCC参数和MFCC参数各自的实现原理以及MFCC参数相对于LPCC参数和LPC参数的优势,解释选择MFCC参数的原因;在识别过程中,介绍了几种常用的识别算法,并着重分析了隐马尔可夫模型(HMM)的结构和原理。针对孤立词、非特定人和大词汇量语音识别过程中,识别时间过长,计算量过大,内存占用过多,对系统硬件资源要求过高的缺点,提出改进的语音分组识别算法。首先,对MFCC参数采用分段均值降维方法,巧妙地避免了不同语音长度(帧数)的时间规整问题,从而确保分组具有较高稳定性。接着,为了消除K均值聚类分组时初值选择随机性对分组稳定性的影响,以及语音模板过多导致模板之间区分度下降而对分组造成困难,提出经验调整算法,进一步增加分组稳定性。然后,为了使分组的稳定性有理论保证,结合数理统计相关知识,提出置信度检验算法,从数学上证明分组稳定。最后,针对不同的分组情况,识别率和识别时间各不相同,提出最大值决策法确定哪种分组为最佳分组,从而最大限度地满足用户对识别率和识别时间的双要求。为了检验该方法的效果,在PC机的Matlab平台上进行测试。通过与传统HMM算法以及传统分组算法进行比较,对实验数据进行分析。结果表明:改进的语音分组识别系统分组稳定性很高,识别时间明显减少,计算量减少50%以上,内存占用量明显减少,也降低了对系统硬件资源的要求,唯一不足是识别率略微下降。总体看来,该方法有效。
其他文献
在工业化日益发达的今天,电机作为工业生产的主要动力来源,成为人们生产和生活不可或缺的重要组成部分。一旦电机出现故障,轻则影响正常的生产生活,重则危及人们的生命安全,所以及时准确的掌握电机的运行状态,提前预测电机可能出现的各种故障,就能采取必要的措施,防止事故的发生。本文的电机监测系统以SAMSUNG公司的S3C2440A为微处理器,Linux操作系统为软件开发平台。论文在硬件方面详细介绍了各个模块
随着人们环保和节能意识的增强,太阳能热水器以其安全、节能、环保、经济等优点受到人们的青睐,成为广大人民的首要选择。无论哪种类型的太阳能热水器,都是通过获取阳光实现热能
三相电压的不平衡对用电设备的正常运行以及用电安全有着非常重要的影响,随着科技发展的突飞猛进,各种不平衡负载对电能质量提出了非常高的要求。传统三相逆变器无法在不平衡负载情况下输出三相对称电压来满足供电需求,而三相四桥臂逆变器由于增加了一个桥臂作为四线制输出的中点,可以控制零序电压和电流,因此具有较好的输出特性。本文对不平衡负载条件下三相四桥臂逆变器的控制策略进行了分析,其控制策略主要包括脉宽调制(P
学位
随着微电子技术和信息技术的快速发展,航空、医学和军事等领域对高分辨率图像的需求越来越迫切。高分辨的图像可以通过全景相机和广角相机来获取,但是这些相机的价格普遍十分
学位
图像超分辨率重建技术作为一种无须改善硬件设备即可显著提高图像分辨率的技术,已经成为图像处理领域的一个研究热点。最近,基于图像稀疏表示理论的图像超分辨率重建技术通过
学位
模糊控制是根据实际经验,通过较好的模糊逻辑系统规则及参数设计来保证其控制效果。模糊控制理论自1965年诞生以来,无论是理论研究还是在实际应用中都取得了诸多成果。在应用
铝电解是一个非线性、多变量的复杂工业过程,难以对其生产状态进行定性定量的准确描述。通常选用电解槽的电流效率来作为判断电解槽运行是否良好的指标,而让电解温度保持在一个