噪声环境下的语音识别系统

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:awzh963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类交流最常用的方式,而能让计算机听懂人所说的话一直是人类的理想之一,语音识别技术的出现,使人类的这一理想得已实现。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别正逐步成为人机接口的关键技术,语音识别技术与语音合成技术的结合,使人类能够甩掉键盘的束缚,通过语音命令进行操作。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。因此对语音识别技术的研究具有重要的理论意义和实际价值。  本文首先对语音识别技术进行了简单介绍,然后针对噪声环境下传统端点检测算失效的问题,提出了一种基于听觉模型的小波包自适应语音增强方法,它能够很好地去掉噪声,增强了语音;其次,本文重点研究了语音识别中常用的语音特征参数,主要是线性预测倒谱系数和美尔倒谱系数,发现这些特征参数未考虑淹没在噪声里的有用语音,实际中,噪声中被掩蔽的语音部分人耳虽然无法听到,但是却会造成语音特征参数的改变,使提取的特征与模板库里的特征存在着较大偏差,最终导致了识别率的下降。如果能够提取这部分淹没在噪声下的有用语音,必然能带来识别率的提升,因此,本文提出基于小波与分形的语音特征提取,通过小波包对语音信号的时频划分,使噪声和语音划分在不同的时频域,然后用分形技术进行分析,以分形维为语音特征矢量,实验证明在噪声的环境下新的特征提取比MFCC更稳定,抗噪声能力更强,提高了识别率。最后,本文比较了两种识别模型动态时间规整(DTW)和矢量量化(VQ),比较了这两种方法,在不同语音增强方法、不同的特征参数下的识别时间和抗噪能力。
其他文献
随着近年来视频通信、数字娱乐等产业快速发展,三维人脸重建成为了计算机视觉以及计算机图形学领域的研究热点。目前,基于物理装置、视频、和多幅图像等的三维人脸重建方法不仅
如今计算机软件已经应用到各个行业中,石油行业有大量的数据需要采集、处理、计算得出结果用于指导石油行业的生产,因此尤其需要软件的支持,而软件质量就成为一个重要的问题
查询推荐是现代搜索引擎,诸如谷歌,必应和百度等普遍采用的一项重要技术。搜索引擎查询推荐技术的核心目标是为搜索引擎用户推荐能够满足他们信息需求的查询。但是现有的搜索引
网络安全评估是指在具体的网络环境与任务下对一个网络的安全防御能力进行评估。虽然学界对于网络安全评估研究已经二十多年,但是仍有许多问题有待于进一步解决。  传统的网
随着信息技术的发展,多媒体技术的诸多应用已经渗透到人们生活的各个方面。在各种多媒体信息中,最重要的当数视频信息,因为人们从外界获取信息的80%以上是通过视觉获取的。然而,高
自然界一切现象背后都有其物理规律,裂纹的产生与发展则是其中非常复杂而有意义的一种。在工程学领域,研究者们需要了解建筑或桥梁的设计是否合理,结构的什么部位比较脆弱;在
容延容断网络(Delay/Disruption Tolerant Networks,DTN)是一种间歇性连接的无线网络。在这类网络中,通讯节点分布不均匀,通讯状态起伏很大,网络拓扑结构很不稳定,从而导致整个通
随着社会信息化程度越来越高,计算机处理的数据规模越来越大,而且数据的结构通常也具有很强的随机性。如何为这样的研究对象设计高效的算法,如何研究它们的动态演化方式,已成为新
学位
著名的OTIS网络(也叫Swapped网络)和最近出现的Biswapped网络均可用来构建大规模并行分布式系统的互连网络。Biswapped网络可以看做是OTIS网络的一种扩张,因而这两种网络呈现