孤立词语音识别算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:ntcao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是指让计算机能理解人类的语言,并根据语言的内容执行一定的命令或任务,在电话拨号、家电遥控、工业控制、信息查询等领域有着广泛应用。在计算机应用广泛普及的今天,人机之间进行语音交流已成为人机交互技术中的重要研究课题。如何利用语言简单、快速、方便的使用计算机,使计算机能够更好的为人类服务,成为人类努力追求的目标。   本文针对孤立词语音识别进行研究,首先对采集到的语音信号进行预处理,包括预加重和分帧加窗两个方面,预加重的方法是将语音信号通过一个特性为(1-az-1)的高通滤波器,其中a取值为0.9375,目的是提升语音信号的高频部分,使信号的频谱变得平坦,再用汉明窗对语音信号进行分帧加窗,使其具有短时平稳性;端点检测采用基于短时能量的改进后检测算法,得到真正有效的语音信息段;然后提取有效语音信号的特征参数,本文提取的是抗噪性能较强的MFCC特征参数,采用24维的三角滤波器组,最终得到12维的Mel倒谱系数和12维动态差分系数;最后采用DTW高效识别算法进行模式匹配,解决了参考模板和测试模板不等长匹配的问题,最终实现了孤立词的语音识别。   本文识别对象为研究室环境下采集的语音信号,实验所用的语音库包括:a.单音节:汉语数字0~9;b.多音节:10个汉语命令(打开、关闭、向左、向右、前进、后退、抬头、踢腿、开门、关门)。一共由16个人录制,10个男生和6个女生,每人发音3遍,共计960个语音样本。音频格式为:采样频率为8KHz、量化字长16bit。实验结果显示,对于特定人的语音识别,多音节的识别率达到了80%,单音节的识别率达到了93.1%。
其他文献
本文设计了一种基于Linux的嵌入式多媒体存储系统,用于对某些领域的监控及其监控数据的存储和管理。首先,在了解国内外发展现状并明确该系统的实际应用意义后,分析了H.264标
图像压缩是图像处理的一个重要环节,是图像存储和传输过程中要解决的重要问题。图像压缩技术已经研究了几十年,取得了很大的成绩,并已制定JPEG、JPEG2000等静止图像压缩标准。然
飞机静态疲劳的检测对于保障飞机安全飞行有着重要的意义。传统的办法是应变仪采集应变数据,通过光纤等有线介质传输给工作人员进行数据分析。在无线通信、微机电系统、传感器
随着社会经济的不断发展,人民的生活质量也不断的提高,汽车的数量也不断的增多,造成了出门“停车难,难停车”的问题日益严重,各商场、饭店的停车位也拥挤不堪,地下停车场或者
我国处于环太平洋地震带和地中海-喜马拉雅地震带的交汇部分,加上太平洋板块、菲律宾板块向西北方向的俯冲和印度洋板块向北的推挤,导致我国地震活动频繁和强烈,并且地震灾害
随着物理世界对联网的需求越来越大,物联网呈现出巨大的发展前景,适用于物联网的无线局域网也越来越趋向于大规模、高密度部署,即要求支持更多用户节点和更大覆盖范围。在低
复杂系统是一种由大量交互成分组成,其内部关联复杂、不确定,系统的局部特性的叠加不能描述和解释整个系统特性的非线性系统。论文依托国家自然科学基金重点资助项目,以复杂
近年来,随着移动互联网技术的迅速发展,室内无线定位技术作为其催生出的新兴技术产业,已被广泛应用于安全保障、社会服务、医疗卫生等领域,且成果突出。随着室内无线定位需求
广播是Ad hoc网络中的一项基本通信手段,也是许多按需路由协议中寻找路由的重要操作。全网范围内的广播在Ad hoc网络中有着重要且广泛的应用,也是网络开销的主要构成部分。由
频谱检测是实现认知无线电的前提,是认知无线电的的核心技术之一。目前对频谱检测的研究主要有单节点检测和多节点协作检测,协作检测可以通过融合多个认知用户的感知信息更可