Logistic回归参数遗传算法估计的分类效果和泛化误差的分析研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:yangglan2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:   在处理医学方面的数据时,我们通常需要对某个个体进行疾病分类的判断,logistic回归是常用的方法之一,logistic回归方法适合用于两类的判别,模型较为简单易懂,是统计软件中常有的模块。极大似然法估计模型的参数是应用最多的,但极大似然估计本身有一些不足之处,例如在小样本时极大似然法无法估计logistic回归模型参数。随着数据挖掘方法的悄然兴起,各个领域的学者都在开始一些新的方法尝试,已经有一些研究采用遗传算法对医学数据进行分析,得到了比较好的结果,并且证实遗传算法中的一种算法遗传程序设计应用于疾病分类时的性能要比logistic回归优越。本次研究的主要目的是在logistic回归模型的基础上,考察参数估计的方法,研究遗传算法作为参数估计的方法应用于logistic回归模型,较之极大似然法应用于logistic回归模型的优劣,尝试新的logistic回归的参数估计方法。   研究方法:   本文通过模拟数据来进行分析,模拟数据结构为八个自变量,一个因变量。模拟数据以后从中抽取100份训练集样本来分别进行极大似然法的logistic回归和遗传算法的logistic回归,建立模型以后将模型参数代入验证集样本,计算模型对数据的拟合效果,进而比较两种方法的优劣。同时也考察模拟数据的不同变量组成和样本量的大小对两种方法的影响,从而讨论两种方法各自的适用情况。   研究结果:   自变量之间比较独立,数据模拟模型中没有二次项的情况下,极大似然法的logistic回归要优于遗传算法的logistic回归,样本量分别为800、200、80和40时,极大似然法的正确度都在0.8以上,而遗传算法的正确度在0.7到0.8之间。但随着样本量的下降,极大似然法在验证集中的正确度下降明显,对应每个样本量分别为0.802、0.776、0.738和0.703,而这一趋势在遗传算法并不明显。这说明极大似然法的logistic回归在小样本的情况下具有比较大的泛化误差,所以极大似然法的logistic回归的泛化误差同样值得考虑。   在自变量间加入相关,并且数据模拟模型中出现二次项的情况下,极大似然法的logistic回归的效能下降,而这在遗传算法的logistic回归中并不明显。可见遗传算法的logistic回归比较少受到数据结构和样本量等因素的影响,有某些方面的优势。   讨论:   通常我们做logistic回归,只注重分析模型中的回归系数,并没有直观的来考虑模型对分类变量的归类效能。而拟合优度检验是logistic回归分析过程中不可缺少的一部分,然而,实际应用中这一点往往被忽略,所以这一点在以后的研究中需要提起注意。   通过本文的研究虽然暂时还未发现遗传算法的logistic回归得到的灵敏度、特异度等指标显著高于极大似然法的logistic回归,但是,遗传算法应用于疾病分类也有它的价值。在某种数据结构或某种样本量的情况下,极大似然法无法估计得到logistic回归模型的参数,但遗传算法受这两方面的影响不大。并且遗传算法应用于其他的很多方面都取得了不错的效果,所以可以进一步研究遗传算法在疾病分类中的应用。
其他文献
数学是一门综合性很强的学科,它与其他学科有着密切的联系,因此,在教学中要从现实的生活素材引出数学,并加强数学与其他学科的密切联系,使学生从丰富的学科知识中去感悟数学,
教学评价是教学活动的一个重要组成部分,它不仅可以及时对师生教与学的状况作出价值判断和量化评估,而且对课堂教学起着直接的导向作用.
教育家斯宾塞说:“学习任务知识的最佳途径是自己去发现”.新课标也积极倡导探究学习,强调在探究过程中培养学生发现、分析、解决问题的能力,养成探究的意识和品质.
生长在四季分明地区的作物,在炎热夏天不同程度地存在“午休现象”。青海地处高原,作物生长季节短,但日照时间长,昼夜温差大。为进一步探讨青海作物高产的生理原因,从1980—1
叶圣陶先生认为语文教学的最终目的是自能读书,不待老师讲;能自作文,不待老师改。教与学这是两个不同的侧面。古人说:“授人以鱼,仅供一饭之需;授人以渔,则终身受用不尽。”
教师在批改作文时,发现文中错误,常常喜欢用红笔刀砍斧削,改得满纸通红.但事与愿违,往往是教师认真批,学生马虎看.
明确指出:“汉语拼音教学要尽可能有趣味,应以活动和游戏为主,将学说普通话与识字教学相结合.”在此精神指导下,所用教材从内容到形式都有所改变.
作文教学是语文教学中必不可少的组成部分,在学生的主体性发展中,作文教学占据着十分重要的地位。要真正实施素质教育,培养学生的创造能力和创新精神,就必须重视学生的个体发
众所周知,甘蔗是无性繁殖作物。在1887年以前全世界均认为甘蔗不能开花结实。自从1887年荷兰人 Soitwedel 偶然发现甘蔗可以开花结实之后,才逐渐地在不同的国家开始从事甘蔗
笔者较长期观察和参与《中国达人秀》的若干工作,在坊间热议的收视和收入话题之外,更关注在生产层面的若干启示。本文即从机制和团队切入,提供一份更接地气的记录。从模式走