论文部分内容阅读
阿尔茨海默症(AD)是一种以认知障碍为主要临床特征的慢性病,也是老年疾病中的常见高发病。随着生物医学的发展,对阿尔茨海默症的研究数据越来越多,但是这些数据集具有高维、形式多样以及分布不平坦的特点,如何有效地利用这些复杂的数据成为当今大数据时代所要研究的热点问题。支持向量机(SVM)是基于统计学习理论发展起来的,是借助最优化方法进行数据挖掘的一种新工具。但该方法不能够识别模糊标记样本,也不能利用未标记样本,导致模型分类结果出现偏差。为了有效地处理阿尔茨海默症中的复杂数据,且不浪费大量有价值的未标记样本,引入了支持向量机的改进算法,即模糊支持向量机(FSVM)和半监督支持向量机(S3VM),并将这两种方法应用到阿尔茨海默症数据的分类技术中,通过实验观察分类结果的准确性。主要研究内容和结果如下:(1)首先,采用了特征提取方法对数据进行前期处理。为了降低数据的维度,利用主成分分析法从121个阿尔茨海默症样本数据的55项特征变量中提取出11个因子变量,且这些因子变量基本上能够代表数据的全部信息;(2)研究了支持向量机的理论框架,针对支持向量机模型中的核函数与参数问题,通过设定不同的值进行分类实验,观察其对分类准确率的影响程度。实验结果表明,SVM算法能够对阿尔茨海默症数据进行有效的分析,并且测试样本的分类准确率可达92.157%;(3)研究了模糊支持向量机的理论框架,挑选出阿尔茨海默症数据集的11个特征变量中的前3个主成分和前2个主成分分别进行模型的训练。由于FSVM算法中的模糊因子能够识别一些特殊的样本点,故可通过赋予不同样本不同隶属度值来区分开信息量大的样本点与无用的噪声点。利用基于FSVM的模糊C均值聚类方法对阿尔茨海默症数据集的121个样本进行归类,得出较准确的分类结果,预测出的负类别准确率高达95.455%,但正类准确率稍低;(4)研究了半监督支持向量机的理论算法,具体分析模型中的各种函数与参数对分类结果的影响,并根据参数寻优找出最佳的学习模型。实验分析得出的分类准确率最高为94.118%且结果稳定,表明了S3VM方法能够综合利用标记样本和未标记样本的分布信息来提高模型的分类准确率。通过理论的探究与实验的验证可知,论文所研究的支持向量机中的第三种模型半监督支持向量机,相比于其他两种模型,在阿尔茨海默症数据的分析上具有更高和更稳定的分类准确率。表明该方法能够通过对脑功能数据进行分类来有效预测老年人是否患有阿尔茨海默症,以此更好地辅助医生进行AD的诊断与治疗。