论文部分内容阅读
帕金森病(Parkinson’s Disease,PD)是一种不可逆的神经退行性疾病,对PD患者的身心健康有严重危害,且目前尚缺乏治疗PD的有效方法。现有的基于生化、影像、量表等的检测方法虽有效,但严重依赖于医疗设备和医护人员。由于PD发病缓慢且隐蔽,PD患者的病情会随时间的推移逐渐加重,因此研究一种高效、便捷且客观的诊断方法就显得非常重要。基于语音的检测方法是近年来出现的PD检测新方法,是通过对受试者语音数据进行数据挖掘来实现检测诊断,具有无创、快速、低成本等优点,已经引起国内外广泛关注。尽管目前关于PD语音检测法的公开研究取得了显著的进展,但仍存在一些问题,如:1)样本获取过程中噪声的引入导致样本质量不佳,在样本空间中形成混叠区域,极大影响了模型的分类准确率;2)研究发现不同语料的敏感特征并不一致,而现有研究针对不同语音任务提取了相同的特征,导致获取的样本有冗余特征且样本分类能力不佳。针对这些问题,本文从样本分布学习和协同学习这两个方面入手,开展如下研究:(1)针对样本混叠严重的问题,本文提出一种PD语音数据分包融合集成学习算法。首先,利用类心距离度量比值来衡量样本与异类样本的混叠程度,并将训练集根据样本混叠程度划分成多个子集;其次,每个子集训练一个分类器模型,将子集自测时分类错误的样本增强后传递到下一个子集中,并计算每个子集所对应子分类器的权重;最后,测试样本在每个子分类器上得到一个预测结果,而最终结果由这些结果加权融合得到。该算法通过划分子集减小混叠区域样本对其他样本的影响,错分样本的传递则增加了样本的利用率,而最终的集成过程则利用权重进一步弱化混叠区域样本对模型的影响,从而提高分类准确率。(2)针对不同语料敏感特征不一致的问题,本文提出一种PD语音样本与特征协同学习检测算法。首先,利用样本合并式学习将每个受试者的多个语音样本组合成一个样本;其次,利用前向序列选择(Sequential Forward Selection,SFS)算法与皮尔逊相关性系数、距离可分度、最小冗余最大相关性(Minimum Redundancy Maximum Correlation,mRMR)等评价准则相结合进行特征优选和排序;最后,依次选择靠前的若干特征分别进行分类,并选取分类性能最好的特征集进行分类诊断,得到最终的预测结果。该方法充分考虑到了不同语料样本之间的差异性和不同样本的特征冗余性,通过样本和特征协同学习得到与各个语料样本紧密相关的语音特征子集,从而获得更高分类准确率。本文研究为提高基于语音的PD诊断准确性提供了新的思路,在一定程度上为PD语音诊断研究中的语料设计和特征提取提供参考价值,对推进PD语音分类诊断方法临床化和实用化发展具有重要的理论价值和实际意义。