论文部分内容阅读
1.简介
特征提取在实现稳健的语音识别中扮演了重要的角色。好的特征应该在类内具有尽可能多的相似性、而在类间则应该尽可能的不同。在设计和开发更先进的语音识别系统中,稳健特征的提取是提高系统性能的重要的手段之一。很显然不同的特征或者特征中的不同参数各自能更好地描述特定的语音类别。
因此现在的问题是怎么才样能找到好的能增强表达语义信息的特征,从而能提高系统的识别率,并增强系统对噪声的稳健性和对说话人的不敏感性。现有的汉语普通话自动语音识别系统中,使用的都是基于MFCC算法的特征。该特征在识别时对发音相近的汉语音节很难区分。鉴于此,将介绍一些对现有的语音识别系统的特征进行改进的算法,这些算法对由清华大学电子工程系开发的THEESP语音识别系统中采用的特征提取方法进行了扩充。
THEESP语音识别系统使用了基于段长分布的隐含马尔可夫模型。这个汉语语音识别系统(M-ASR)在识别过程中是分两个阶段进行的:第一阶段叫做粗识别阶段,在这个阶段中,系统只区分音节而不区分音调;第二阶段叫精识别阶段,在这个阶段中,每个音节的四个音调都会予以考虑。在本论文研究中,用这个中文识别系统作为基线系统。
研究主要集中在从三维的语谱图信号中提取更清晰更有用的信息。最近的研究还表明,把运用不同运算法则提取的语音信号所得到的不同的特征综合起来,是一种有希望提高语音识别性能的方法。因此使用这两种方法完善THEESP这个基线语音识别系统。
在这篇中文摘要中,第二部分详细解释了遇到的问题。在第三部分中,提出了该论文解决问题的最重要最显著的论点。在第四部分是对成绩的总结,第五部分提出对未来研究的一些建议。
2.论文的研究内容
汉语普通话是一种音节结构化的语言。在这种语言中,有很多音节在语谱图上非常相似。由于这种相似性,因此很难区分它们。于是,有必要使用更加复杂的算法正确地区分和识别它们。
一个标准的以及其改进的随机模型语音识别方法能同时提高识别的正确率和计算的速度。梅尔频率倒谱声学特征矢量(MFCCs)、基于段长分布的隐含马尔可夫模型(DDBHMM)是连续大词汇量(CLV)汉语普通话语音识别的系统(M-ASR)的组成部分。
本论文的研究目标就是在中文语音识别系统进行粗识别和精识别的两个阶段都设计一些算法用来提高系统的识别率。改进的方向就是使用新的、有效的和独立的特征去加入或者替换现有的基于MFCC特征的算法,使得那些容易混淆的音节在新的特征空间中的距离能够增大,从而提高系统的稳健性,最终导致识别率的提高。
3.论文的研究方法和创新内容
寻找语音信号的“完美的”表达方法是许多研究人员孜孜以求的目标。本论文的研究中,寻求从不同的角度来研究和处理这个问题。不只用一种单一的特征表示方法,而是用多种不同的特征表示方法,这包括用时间频谱特征的表示方法。
4.结论
在这篇论文中,根据研究工作的先后次序,在论文的五个章节中先后提出并测试了许多算法。论文的研究工作从研究测试语谱图开始,并最终取得了很大的进展。在时间谱特征的基础上,运用特征补偿或是用提取新特征方法,使得现有的THEESP中文识别系统的性能得到了明显的提高。