论文部分内容阅读
儿童自闭症是一种广发性发展障碍疾病(pervasive developmental disorders,PDD),其共同特征为言语发育障碍,社会认知障碍和行为方式刻板重复。具体表现在三个方面:一是患者极少主动沟通,答非所问;二是患者对周围人群或事物不感兴趣,难以体会他人情感;三是患者行为方式单一,受到刺激很难快速做出改变。3岁前是儿童自闭症高发期,以男孩居多,病因主要集中在家族遗传史、妊娠期发育不良、大脑功能区发育不健全等方面。据相关统计显示,在全球范围内,自闭症儿童的数量以20万/年的速度增长,而在中国,儿童自闭症已被列为精神残疾类疾病首位,儿童自闭症的诊疗研究已逐渐成为全球性的研究课题。目前,常见的辅助诊断方式有脑CT扫描、脑电信号描记、眼动追踪、行为分析(Applied Behavior Analysis,ABA)以及多量表综合汇评等,多数医生还是依据长期的临床观察辅以多种量表进行诊断。由于没有制定出行之有效的客观评估方式,导致诊断周期过长,诊断的准确性较低,容易错过最佳的干预时期。声音是人类生活中信息传递最常见的载体之一,由于每个人发声器官构造上的差异,不同人发出的声音信息会略有不同,因此,通过对采集到的声音进行音频分析,往往可以找出某些只属于本人的特定信息,方便研究和总结规律。为找到一种客观真实的自闭症诊疗手段,本文从自闭症儿童声学角度出发,收集尽可能多的自闭症儿童发声数据,利用机器学习和音频信号分析的技术,经过全面的对比实验,提取最具有代表性的声学特征参数和筛选最合适的的分类模型,搭建音频分析与识别框架,为自闭症儿童早期的临床诊断提供了一种声学检测手段,本文主要开展的工作内容如下:(1)自闭症儿童声音数据的采集与制作。由于受到复杂噪声环境的影响和对自闭症儿童缺乏了解,导致采集范式设计不合理,再加上家长与儿童的不配合,使得前期采集到的数据质量较差,课题的开展受到严重阻碍。随后与安徽医科大学儿童科的医生们展开合作,由他们联系和安抚患者家属,我们使用改进后的录制范式来采集发声数据,后续通过简单地指导和培训,医护人员已经可以独立进行采集工作,解决了我们因为路程较远而无法经常采集新数据的难题,经过双方通力合作,为日后建立完善的自闭症儿童发声数据库奠定了基础。(2)音频信号前端预处理算法研究。通过对自闭症儿童音频信号和高斯噪声进行加噪建模,以此为基础,确定了适用于本文数据库的音频去噪和端点检测算法,在音频去噪方面,对多窗谱减算法的去噪性能进行了研究,实验表明,该算法在抑制环境噪声的同时可以极大消除去噪过程中附带的“音乐噪声”,在不同信噪比下均表现出良好的鲁棒性。在端点检测方面,对比分析了五种端点检测算法,并通过比较与实际标定位置之间的误差,最终得出基于多窗谱减的均匀子带谱熵具有最优的准确性与鲁棒性。(3)基于优化算法的支持向量机模型研究与声学特征提取。首先引入混淆矩阵的概念,并使用F1-Score、AUC、Accuracy、Time四种性能评价指标,分别对基于网格、遗传和粒子群三种优化算法的支持向量机(Support Vector Machine,SVM)模型进行综合评估。实验结果表明,网格算法搜索时间最短,粒子群算法识别精度最高,而遗传算法的效果最差。最后使用网格和粒子群优化算法对感知线性预测(Perceptual Linear Predictive,PLP)、梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)、线性倒谱预测系数(Linear Prediction Cepstrum Coefficient,LPCC)和小波梅尔倒谱系数(DWTMFCC)四种声学特征进行准确性和鲁棒性对比,最终得出,在理想环境下,PLP与MFCC均具有较高的准确率,而在低信噪比环境下,PLP稳定性能最好,DWTMFCC次之。(4)基于卷积神经网络识别模型研究。鉴于音频信号一维特性,对二维卷积模型进行改造,建立更适用于音频检测的一维卷积模型,并与传统二维卷积模型在识别性能、抗噪性能和收敛速度三个方面进行对比。实验结果表明,一维卷积模型在低信噪比下的抗噪性要优于二维卷积,在收敛速度上,一维卷积下降更快,在识别性能上,也是一维卷积模型识别率更高。总体来看,一维卷积模型在音频信号分类识别和抗噪性的表现均优于传统的二维卷积模型。(5)基于SVM的自闭症儿童音频检测系统。在总结研究音频信号前端预处理、声学特征提取及模型优化算法的基础上,实现了基于Matlab2012a平台开发的支持向量机自闭症儿童音频信号检测系统,主要集成了音频采集与录制、前端预处理与分析、模型训练、特征提取和分类识别等功能模块,在复杂环境下,表现出较好的适应性和稳定性。