论文部分内容阅读
嗓音对人类的日常生活以及工作极其重要,随着人们社交活动的增多、生活习惯的改变,使得喉部疾病的发生率越来越高。于是对嗓音的检测、治疗分析成为相关研究者关注的焦点。病态嗓音检测与诊断的本质是将采集的嗓音文件转化为数字信号,提取其特征参数,并将提取的特征参数与通过临床医生主观判断分类的嗓音数据库参数进行对比,然后采用识别机对测试样本所属类别进行识别,由此达到疾病检测与诊断的目的。其中,特征提取和识别机是嗓音识别中的关键技术,如何选择能够充分表达嗓音特性的特征或者特征组以及识别机,提高病态嗓音分类精度,一直是相关研究者关注的核心问题。本文主要对病态嗓音特征的优化及识别机进行了相关研究,主要包括如下两个方面内容:1、在实验室前人的基础上,继续探索传统声学特征和非线性特征的鲁棒性及对病态嗓音的贡献情况,并分别在两种不同的数据库(自建临床数据库和MEEI数据库)上进行试验。(1)本文采用了基于随机森林的特征排序方法对17种常用的特征进行特征贡献率的排序。通过计算每种特征的平均不纯度减少和平均精确率减少的值,来判断各种特征对病态嗓音识别的贡献,以指导特征的选择和优化组合。为了进一步地对选择出来的特征的鲁棒性及识别贡献进行研究,本文进行了数据库交叉的实验。经过实验得出鲁棒性相对较高的特征,如Hurst参数、模糊熵、2-Rényi熵、吸引子及基频。然后利用这些鲁棒性较优的特征,进行随机特征组合。分别在两种不同的数据库上进行试验,并使用支持向量机(SVM)和随机森林进行识别。其中组合特征:(1)Hurst参数、吸引子、模糊熵、2-Rényi熵、基频;(2)Hurst参数、吸引子、模糊熵、基频;(3)Hurst参数、吸引子、2-Rényi熵、基频,这三组较其他特征组合表现出更好的鲁棒性和识别效果。(2)在特征组合识别的实验中,(1)自建临床数据库上,使用SVM得到最高识别率为97.33%,平均识别率为89.12%,使用随机森林得到最高识别率为98.00%,平均识别率为96.08%。(2)在MEEI数据库上,使用SVM得到最高识别率为99.70%,平均识别率为97.77%,使用随机森林得到最高识别率为100%,平均识别率为99.67%。结合单特征及组合特征的实验,证明了随机森林作为分类器,相比SVM表现出较好的分类精度及鲁棒性。2、本文还研究了自建临床数据库中不同程度病态嗓音的病理特性,选择前面实验中几种鲁棒性较好的组合特征。并分析组合特征对多层数据库中正常嗓音、轻度嗓音、中度嗓音及重度嗓音的区分能力。然后进行随机森林识别,得到四种嗓音信号的最高识别率分别为:98.72%、70.37%、79.07%、87.88%。实验结果表明,基于随机森林的特征组合能有效地检测不同程度的病态嗓音,同时也表明了随机森林具有分类精度高的特点。