论文部分内容阅读
对婴儿来说,啼哭声是一种通讯的方式,一个非常有限的,但类似成年人进行交流的方式。它也是一种生物报警器,向外界传达着婴儿生理和心理的需求。
基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。因此,有效辨识啼哭声,成功地将婴儿啼哭声“翻译”成“成人语言”,让我们能够读懂啼哭声的含义,有重大的实际意义。
由于婴儿啼哭声与语音的关联,现在有越来越多的研究人员着手将语音处理技术和模式识别的方法运用在婴儿啼哭声的分类上,随着语音处理技术的高速发展,也为婴儿啼哭声的识别提供了强有力的支持。
本文对婴儿啼哭声的分类识别进行了一定程度的研究,所做的工作主要有以下几个部分:
将婴儿与成年人在发声结构和发声原理上分别进行了比较,了解两者的异同。从婴儿啼哭声的特性上入手,采用合适的技术对其进行分析处理。
数据库的建立。由于目前没有统一规范的婴儿啼哭声数据库,而且研究者所在的领域不同,对婴儿啼哭声分析的侧重点也不同,造成了对婴儿啼哭声类别的划分有多种方式。综合考虑各方面的因素,在实验中,对婴儿啼哭声是按照疼痛和非疼痛来进行划分。
预处理分析过后,重点讨论婴儿啼哭声的参数提取,通过分析常用的特征参数,包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel倒谱系数(MFCC)等,分析各自的优势和不足,选用MFCC参数用于婴儿啼哭声分析中,并选取不同的阶次来观察对疼痛的和非疼痛的婴儿啼哭声识别率的影响。考虑到婴儿声道构造独特,通常啼哭声的基音频率较高,而MFCC参数对婴儿啼哭声在其高频部分的信息提取工作不如在其低频部分的效果好,因此另外引用一种反向Mel频率倒谱系数,即IMFCC,这种参数对婴儿啼哭声的高频部分的信息获取具有很大的优势,与MFCC形成了优势互补。将MFCC与IMFCC两者结合使用,即形成组合特征,同样也选取不同的阶次来考察对疼痛的和非疼痛的婴儿啼哭声识别率的影响。最终,通过实验结果验证,使用组合特征的识别率要比单独使用一种参数时有所提高。
对婴儿啼哭声的识别算法分析中,探讨了三种常用的识别算法,但根据当前样本较少、婴儿啼哭声的特性、以及运算量的大小三个方面的综合考虑,确定将在孤立词的识别中运用非常广泛的DTW算法用于对疼痛的和非疼痛的婴儿啼哭声的识别中。