论文部分内容阅读
帕金森病(Parkinson’s Disease,PD)是一种人类中枢神经系统退行性疾病,如果在发病早期就能及时确诊和干预,绝大多数PD患者病情发展能够得到有效延缓甚至停止。因此PD的早期无创诊断具有重大现实的意义。基于语音数据挖掘PD分类应用研究近年来开始受到人们关注,其具有的无损、快速、远程、性价比、便捷等优点使其成为目前国内外研究热点和难点。样本和特征学习是PD分类算法中重要部分,但现有相关研究还存在如下关键问题有待解决。1)PD语音样本是通过采集多种语音片段获取的,部分语音样本不能较好的表征患者与健康者之间的本质差异,并且样本采集中会引入随机噪声,干扰分类器性能。因此如何优选最优样本以实现满意的分类正确率和稳定性是一大难题。现有方法较少考虑样本优选对PD分类的影响,显著影响了分类算法性能提高。2)帕金森语音样本特征是由病理学家的先验知识获取的,具有明显的物理意义,但是特征间具有较大的冗余性,且表征PD病变的能力尚不令人满意,需要研究特征的高效变换方法,以获得分类能力强的高层特征。现阶段大部分研究并没有考虑特征之间的非线性关系,类别表征能力有限。围绕解决上述问题,本文探索研究基于分类与回归树(Classification and Regression Trees,CART)的样本学习、基于深度信念网络(Deep Belief Network,DBN)的特征学习等理论和方法,创新现有PD语音数据挖掘方法,提高分类准确性。本文主要工作和贡献如下:(1)提出了一种基于CART样本优选的PD语音数据分类方法。首先,根据PD语音数据样本,采用基尼指数作为评价指标,获取最佳分割特征及分割值,使得数据集不确定度减少最多,依次构建左右子树;其次,为防止模型过拟合,通过调节CART叶节点样本数量来控制模型复杂度,实现模型最佳性能。最后,将叶节点中样本较多的那一类作为叶节点类别,排除其他类别样本,从而选择出最佳样本集,实现对样本的优选。(2)在第一个工作的基础上,进一步提出了一种基于CART和集成学习的PD语音数据分类方法。首先,根据CART算法优选出最优样本集,作为后续模型训练基础;其次,采用随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)和超限学习机(Extreme Learning Machine,ELM)作为基分类器,分别对新样本集建模,对测试集预测标签。最后,采用投票法实现三个基分类器的决策层融合,获得最终预测结果。(3)提出了一种基于DBN特征学习的PD语音数据分类方法。首先,构建DBN特征提取网络,将每个受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)输出作为新的重构特征;其次,将原始特征集送入DBN网络中,使用对比散度算法分别训练每个RBM,拟合网络参数,非线性组合输入特征,将RBM输出作为最优特征集;最后,使用RF算法对新特征建模分类。本文研究有助于揭示样本和特征学习与PD语音数据分类之间的相关关系,为基于CART的样本学习和基于DBN的特征学习的PD语音数据分类研究奠定相关理论基础和方法依据,对推进PD语音数据分类诊断,避免高风险人群和患者往返医院的不便和安全隐患,具有重要的理论意义和实用价值。