基于遗传算法和加权极限学习机结合的乳腺癌亚型分类和基因选择

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yueliangjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有各种各样的方法去解决关于乳腺癌亚型的基因选择问题。而本文使用的是一种包装法的形式,即在可能选择的特征基因集合空间里寻找出与乳腺癌亚型分类最息息相关的基因集合。这里遇到了两个问题:一、如何评价一个基因集合的好坏。二、以什么样的方式寻找到最好的那个基因集合。对于第一个问题,本文的解决方法是用基因集合中的基因数据训练模型,如果该模型对于乳腺癌亚型分类的预测精度高则表明该模型使用的数据好,也即表明该基因集合更优秀。本文选择的模型是极限学习机,原因在于它是一个新兴的神经网络模型算法,同时它具有简单和极度快速的特点,非常适合大范围、反复的训练。对于第二个问题,其实有许多搜索寻优方法供我们使用,比如随机搜索、穷举以及蚁群算法等。本文使用的是遗传算法。其不错的健壮性和相对简单的操作性是我们选择遗传算法的主要原因。通过遗传算法和极限学习机的结合,我们筛选出了一个包含50个基因的集合,它对于乳腺癌亚型的分类有着最重要的相关性。本文同时也使用了其他特征选择的方法——过滤法。通过对基因集合冗余性的分析,使用SAM方法和基于相似性度量的贪婪算法过滤掉大量冗余基因,减小了搜索空间,免去了许多无用基因对于算法的干扰。我们将这一过程称之为基因预筛选。在这之后,本文针对于问题和数据,给出了适应于求解本文涉及问题的遗传操作和各种参数设置。在问题的研究中,我们遇到了基因数据的不平衡问题,通过分析和研究,我们使用了基于加权的极限学习机,通过代价敏感的方式解决了此类问题。最后我们给出了我们的方法的结果与其他方法的比较。我们首先对比了不同的机器学习算法在我们的最优基因集合上的预测性能,说明了我们筛选出的基因集合是健壮的,其对不同的学习算法都有着超过95%几何平均准确度的预测性能。然后我们对比了以我们的方法筛选出的基因集合与其他方法所得基因集合的预测性能。我们的方法以96.53%的几何平均预测准确率优于其他任何方法,证明了我们的方法是值得研究和扩展的。
其他文献
目的:通过呼吸科临床药师查房病例分析,为临床药师工作提供参考。方法:收集汇总查房中所遇典型病例,多角度予以分析,发现问题,参与调整合理用药方案。结果:经临床药师会诊后,
南宋宰相史浩的词大多作于显贵以后,以宴饮词居多。这些词的创作场合多集中在山水庭园之中,无论是在西湖观潮还是在四明宴游,史浩词乐于歌咏自然环境,善于营造富贵宏丽的词风
目的:探讨急性有机磷中毒患者的急救护理措施及效果。方法:对平庄矿区总医院2010年1月-2013年10月所救治的34例急性有机磷中毒患者的急救护理体会进行总结。结果:本组34例患
研究区位于内蒙古自治区的西部边陲地带,地层主要有圆锥山组、绿条山组、白山组,双堡塘组、全新世风积物夹冲洪积物。二叠世断裂构造及次生裂隙发育,为含矿热液运移、沉淀提
目的:观察二甲双胍联合罗格列酮治疗2型糖尿病疗效,探讨2型糖尿病的最佳治疗方法。方法:将2010年1月-2012年1月来笔者所在医院就诊的120例患者随即分为两组,观察组给予二甲双
今年是中国共产党成立90周年。开展“发扬传统、坚定信念、执法为民”主题教育实践活动,是全国政法系统贯彻中央关于开展“创先争优”活动部署的具体行动,是纪念中国共产党成立
报纸
根据全氢罩式退火炉的工艺特征 ,开发了全氢罩式退火炉的控制系统 ,系统采用PROFIBUS总线网络 ,分布式I/O的控制方案来实现国产化全氢罩式炉的退火过程。同时介绍了国产化全
<正>3月15日下午,汕头市澄海花园酒店宴会厅电商云集,在这里举行了一场论剑授业会。拥有阿里、天猫智库、派代网、淘系等讲师资质的多名资深讲师上台分享网络营销实战经验,为
期刊
<正>本研究从教育信息化的宏观背景出发,对影响中小学信息技术教师专业发展的一些环境因素进行了调查,以寻求促进信息技术教师专业发展的保障机制与动力措施。一、调查结果与
目的:探讨细胞毒性T淋巴细胞相关抗原-4(CTLA-4)基因多态性与福建地区汉族重症肌无力(MG)患者的相关性。方法:PCR扩增、限制性片断长度多态性方法检测福建地区重症肌无力患者