论文部分内容阅读
研究背景:
在处理医学方面的数据时,我们通常需要对某个个体进行疾病分类的判断,logistic回归是常用的方法之一,logistic回归方法适合用于两类的判别,模型较为简单易懂,是统计软件中常有的模块。极大似然法估计模型的参数是应用最多的,但极大似然估计本身有一些不足之处,例如在小样本时极大似然法无法估计logistic回归模型参数。随着数据挖掘方法的悄然兴起,各个领域的学者都在开始一些新的方法尝试,已经有一些研究采用遗传算法对医学数据进行分析,得到了比较好的结果,并且证实遗传算法中的一种算法遗传程序设计应用于疾病分类时的性能要比logistic回归优越。本次研究的主要目的是在logistic回归模型的基础上,考察参数估计的方法,研究遗传算法作为参数估计的方法应用于logistic回归模型,较之极大似然法应用于logistic回归模型的优劣,尝试新的logistic回归的参数估计方法。
研究方法:
本文通过模拟数据来进行分析,模拟数据结构为八个自变量,一个因变量。模拟数据以后从中抽取100份训练集样本来分别进行极大似然法的logistic回归和遗传算法的logistic回归,建立模型以后将模型参数代入验证集样本,计算模型对数据的拟合效果,进而比较两种方法的优劣。同时也考察模拟数据的不同变量组成和样本量的大小对两种方法的影响,从而讨论两种方法各自的适用情况。
研究结果:
自变量之间比较独立,数据模拟模型中没有二次项的情况下,极大似然法的logistic回归要优于遗传算法的logistic回归,样本量分别为800、200、80和40时,极大似然法的正确度都在0.8以上,而遗传算法的正确度在0.7到0.8之间。但随着样本量的下降,极大似然法在验证集中的正确度下降明显,对应每个样本量分别为0.802、0.776、0.738和0.703,而这一趋势在遗传算法并不明显。这说明极大似然法的logistic回归在小样本的情况下具有比较大的泛化误差,所以极大似然法的logistic回归的泛化误差同样值得考虑。
在自变量间加入相关,并且数据模拟模型中出现二次项的情况下,极大似然法的logistic回归的效能下降,而这在遗传算法的logistic回归中并不明显。可见遗传算法的logistic回归比较少受到数据结构和样本量等因素的影响,有某些方面的优势。
讨论:
通常我们做logistic回归,只注重分析模型中的回归系数,并没有直观的来考虑模型对分类变量的归类效能。而拟合优度检验是logistic回归分析过程中不可缺少的一部分,然而,实际应用中这一点往往被忽略,所以这一点在以后的研究中需要提起注意。
通过本文的研究虽然暂时还未发现遗传算法的logistic回归得到的灵敏度、特异度等指标显著高于极大似然法的logistic回归,但是,遗传算法应用于疾病分类也有它的价值。在某种数据结构或某种样本量的情况下,极大似然法无法估计得到logistic回归模型的参数,但遗传算法受这两方面的影响不大。并且遗传算法应用于其他的很多方面都取得了不错的效果,所以可以进一步研究遗传算法在疾病分类中的应用。