基于HTK的连续语音识别技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:liongliong550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是让机器能够“听懂”人类的语言、并把人类的语音信号转化为相应的文本或命令的技术[1]。语音识别可以认为是模式识别的一个分支,它与声学、语言学、心理学、数字信号处理、计算机学科等有密切的联系,是一门跨学科的技术。   本文以HTK为工具,以HMM为模型,实现了母语为英语的非特定人、大词汇量连续语音识别系统。非特定人、连续、大词汇量这三个特点是语音识别走向应用必须要实现的目标。本文中训练和测试的语音库来自NIST的TIMIT,该数据库是一个平衡语料库。在此基础上,完成语音识别关键技术的测试,本文具体工作和创新如下:   1、研究和分析不同音素模型对于语音识别系统性能的影响;实现了单音素建模和三音素系统,结果证明三音素建模考虑了发音的上下文依赖,识别率相比单音素有显著的提高。   2、研究和测试不同高斯混合度对系统识别率的影响。在一定训练数据量的条件下,随着高斯混合度的增加,识别率会上升,继续增加高斯混合度,由于训练数据的稀疏性,识别率会不升反降,实验验证了这一结论,识别率在混合度等于70时达到最大,继续增加混合度,识别率下降。   3、研究和分析了不同特征参数对系统识别率的影响。结果证明特征参数的选取对识别率的影响是显著的。本试验中着重比较了LPC、LPCC、MFCC、MFCC_0、MFCC_0_D、MFCC__0_D_A等不同特征参数下的识别率,本文的识别系统采用特征参数MFCC_0_D_A能达到最高的识别率。   4、研究决策树状态共享对系统识别率的提升,并设计用于决策树分裂的问题集,实验结果证明决策树状态共享对识别率有一定的提升。
其他文献
超宽带(Ultra Wide Band, UWB)的极窄脉冲通信是在窄带通信和宽带通信之外一种全新的通信技术,具有通信容量大,辐射功率密度低,抗多径干扰和电磁干扰保密性好,结构简单等特点
数字荧光示波器(DPO,Digital Phosphor Oscilloscope)是新一代的示波器,这是一种将电信号数字化,并且以三维信息(信号的幅度、时间、以及幅度相对于时间的分布)实时地捕捉、存储、
随着Internet和多媒体技术的日益发展和成熟,人们通过网络来传输信息变得越来越方便快捷。图像作为一个冗余度高的载体,包含着丰富的信息,从而被广泛应用于网络上。然而一些
天线对于整个通信系统至关重要。近年来,对天线的研究成为了一个非常热门的话题。按照极化方式的不同,天线可以分为线极化天线、圆极化天线和椭圆极化天线。线极化和圆极化天
立体成像技术主要研究生成、处理、传输和显示立体图像的方式,探索能使观众产生身临其境新感觉的最佳方法。该技术已经成为国内外相关领域的研究热点,其应用前景非常广泛,然
移动学习已经成为一种新的学习方式,它作为现代移动通信技术与教学实践相结合的一种新型教学形态,是推动教学改革,培养创新型人才的重要途径,开始在教学中受到普遍的重视和推广。
LTE-Advanced是第三代伙伴项目(3GPP)提出的长期演进(LTE)的增强技术,旨在提高传输速率以适应移动宽带通信市场的应用需求,并保持3GPP标准在移动通信领域的竞争力。它继续沿用
随着测井技术的不断发展,传统的感应测井技术已经远远不能满足石油工业的需求,随钻测井以其测量精度高、测量及时、测量信息准确客观等众多优点已经成为当前最热门的发展方向之
调制类型的不断增多和通信系统间的互通性要求促进了信号调制识别技术的不断发展。而正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)技术以其频带利用率高
在20世纪80年代,一种新的分析方法出现在应用数学的调和分析领域,即小波分析。在小波分析中,其重点在于小波变换,它是一种针对信号的时间-频率分析方法。并且它具有多分辨率