论文部分内容阅读
由某些特殊疾病导致的构音障碍会对患者的语言能力造成严重损害,使其在日常交流中难以发出清晰流畅的语音,进而对其生活造成不利影响。面对这种情况,相关领域的研究者开始致力于对病理语音的检测与识别,但是长期以来都只能依赖于医生的主观判断以及侵入式的诊断方式。因此,以结果客观且具有非侵入性的手段进行病理语音识别是目前最为理想的解决方案。然而,现有的病理语音识别系统大多都只使用了单一类型的特征以及单一分类器,在实际使用中存在识别效果不够理想且泛化性能不佳的情况,大大增加了误诊概率。鉴于以上原因,本文基于集成学习思想与语音的融合特征,做了如下研究:(1)提出一种新型病理语音识别系统。在识别网络的构建上,利用bagging抽样算法和决策树算法思想组成了随机森林算法,目的是提高针对构音障碍的病理语音识别的速度和准确率。同时引入了一种基于韵律特征和MFCC的新融合特征FFPM,此特征不仅拥有韵律特征在表现语音的流畅程度、声调和节奏等方面时的优良性能,同时具备了MFCC在表现人耳听觉特性时的优势。本文将新的融合特征与随机森林算法结合起来,最终构成的识别系统可较为显著地提高病理语音的识别准确率,为基于机器学习技术的病理语音识别在实际医疗检测中的应用提供了一种新的方法。(2)使用TORGO病理语音数据库,将语音声学特征与机器学习算法结合进行实验,探究病理语音识别中特征与分类器的最优组合。为了达到此目的,本文进行了多组基于不同被试性别、不同特征和不同识别网络的对比实验。首先将男性和女性的数据分开进行实验,分别测试各种不同结合方式的识别率以及男女语音之间的差异性。实验证明无论选择哪一种识别网络,使用FFPM特征时的识别正确率都比使用另外两个单一特征时更高,并且对于女性语音的识别率略低于男性。然后去除了性别因素,只针对两种不同的语料类型分开进行实验,实验结果显示,结合FFPM特征和随机森林算法的病理语音识别系统所达到的识别正确率最高,其中,对于男性声音的分类准确率达到99.21%,对于女性声音的分类准确率达到98.97%,综合分类准确率达到98.00%。同时研究还发现,相较于限制句,患者对短语的发音更为准确。(3)仍基于集成学习思想,运用PCA方法对抽取的样本子集进行特征变换以增强基分类器间的差异性,进一步构建旋转森林算法。在此基础上,针对病理语音研究中经常遇到的非平衡数据问题,将代价敏感思想引入了旋转森林中。即在构建决策树时,将信息代价函数作为属性分裂准则,且同时兼顾了误分类代价和测试代价,构成一种代价敏感的旋转森林算法,然后通过设计实验来验证其优越性。本文从TORGO数据库中提取出了轻度患者-正常人和轻度-重度患者数据集,特征参数采用了FFPM和非线性特征构成的混合特征,并基于代价敏感旋转森林算法进行了多组实验。实验结果表明,代价敏感的旋转森林可以在保持整体的识别率基本不变的情况下,明显提升少数类的分类正确率。在实际的医学检测中,本文提出的方法对于减小患者误诊代价和提高诊断正确率有很大帮助。