肿瘤基因数据的特征选择算法研究

来源 :甘肃中医药大学 | 被引量 : 0次 | 上传用户:XTOGM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因微阵列技术的发展,大量的肿瘤基因数据被公布。肿瘤基因数据是一种高维小样本数据,具有成千上万个特征基因,但样本量却很少,往往只有几十或几百个。同时,得益于机器学习与数据挖掘技术在医学领域的广泛应用,肿瘤基因数据的特征选择已成为当今研究的热点。对肿瘤基因数据进行特征选择,可以筛选出与致病最相关的基因特征,这对于疾病的早期临床诊断及药物的研发均具有重要意义。因此,开展肿瘤基因数据有效的特征选择算法非常必要。在常用的特征选择算法中,mRMR是一种基于互信息的过滤式算法。基于过滤式的特征选择算法具有简单、计算复杂度低、高效、泛化能力好和适用于高维数据等特点,但忽视了特征之间可能具有的相关性。Lasso是一种基于L1正则化的嵌入式特征选择算法,具有较高的效率、较高的分类准确率和较好的泛化能力,但计算复杂度较高且不适用于高维小样本数据。因此,本文通过将mRMR和Lasso算法结合,提出一种基于L1正则化改进的mRMR算法——MM-LAS特征选择算法。在AMLALLML、COLON、GLIOMAML、PROSTATEML、SRBCTML、LUNG和CARML共7个肿瘤基因数据集上进行实验,结果表明:提出的算法在分类准确率、TP Rate、FP Rate、查准率、召回率、F1值和AUC方面均具有较好的分类性能。通过分类模型,可以评估算法的性能。其中,集成分类器结合多个弱分类器,集成为强分类器,具有更好的分类性能。XGBoost,是一种优秀的集成分类器模型。该模型的性能受参数的影响较大,通过对模型参数进行优化,能够进一步提高模型的分类性能。网格搜索和贝叶斯优化两种方法是目前最常用和高效的参数优化方法,可以有效地选出最优参数组合。因此,本文通过运用网格搜索和贝叶斯优化两种优化方法,对XGBoost模型的参数进行优化,并在肿瘤基因数据集上进行仿真实验,结果表明:XGBoost模型的分类性能得到了显著的提升。分类器的可解释性,是评价其性能的重要指标。本文通过引入SHAP值,对XGBoost这种难以被解释的黑箱模型进行解释和评价。SHAP解释模型与人类直觉一致,并在解释医疗相关模型方面日益流行。SHAP值,可以得到各特征的重要程度以及对模型预测的贡献;对模型预测具有正向,还是反向的影响;特征之间的依赖关系是积极的,还是消极的等。最重要的是,SHAP值在进行解释时,能够表现出特征对模型影响的正负性。同时,SHAP提供了强大的数据可视化功能,可以显示每一个特征对模型的预测值、对特征进行整体的可视化、提供部分依赖图以及对多个特征的交互作用进行分析等。因此,本文对参数优化后的XGBoost模型利用SHAP值在SHAP Value Plot、Variable Importance Plot、SHAP Dependence Plot和SHAP Interaction Values Plot共4个可视化方面,进行了较为深入的分析。在肿瘤基因数据集上进行仿真实验,结果表明:SHAP值可以直接可视化数据中最重要的特征,并分析特征之间以及特征对模型预测的影响关系,并找出与肿瘤致病最相关的基因特征。
其他文献
伊拉克南部地区Mishrif组碳酸盐岩储层石油地质储量丰富,是伊拉克最具开发潜力的目标油藏。该地区M油田Mishrif组地质储量巨大,但采出程度仅1.1%,具有大幅度上产的空间。伊拉克南部同类油田普遍面临注水后部分区域过早突破导致开发效果差。针对M油田后续注水开发方案设计,需要明确各类储层的形成与分布规律,为注水开发方案的优化提供依据。因此,本文以M油田Mishrif组碳酸盐岩储层分布规律研究为主
学位
结肠纤维化是溃疡性结肠炎(ulcerative colitis,UC)最常见的并发症之一,病因不明且难以治愈。目前,临床上治疗UC主要使用氨基水杨酸类、类固醇类和免疫抑制剂等药物,但这些药物的治疗目的是缓解UC症状,而不是彻底治愈UC,且易产生耐药性,副作用较大。因此阐明发病机理和开发新药是当前应对UC及其肠纤维化的研究重点。研究发现,藏药湿生扁蕾Gentianopsis paludosa(Hoo
学位
黄平“游方”为苗语“youb fangb”音译,又称作“was dias youb”,是苗族青年男女以情感缔结为主的娱乐与社交活动。游方作为黄平苗族“蒙”支系的重要文化事项,它展现特定的时空、人群分类、认同与聚合。游方的开展嵌入村寨日常居息与岁时祭仪的脉动,成为年轻人形成对自我、伴、群身份认同的重要场域。本文以黄平苗族游方音乐为研究对象,选取三个苗族村寨为田野调查点,将苗族游方音乐置入民族文化背景
学位
随世界各国环保需求的不断加强和相关法规的日趋严格,降低汽车尾气排放及汽油质量升级已是当务之急。为此,我国颁布了最新国VI汽油标准,该标准对汽油产品中烯烃组分含量及汽油的50%馏出温度(T50)提出了更为严苛的要求。我国汽油池组分构成以催化裂化汽油(FCC汽油)为主,其组成特点为烯烃含量较高,并以C5=-C7=烯烃为主。此外,FCC汽油中C10-C12正构烷烃因沸点较高、辛烷值较低等特点,不利于汽油
学位
C4烷烃是石脑油蒸汽裂解和催化裂化(FCC)的副产物。与蒸汽裂解相比,采用更加高效、节能的催化裂解工艺将C4烷烃转化低碳烯烃(乙烯、丙烯和丁烯)和低碳芳烃(苯、甲苯和二甲苯),具有较高的应用价值。同时,C4烷烃的转化是研究C-C键和C-H键活化的模型反应,具有重要的科学意义。ZSM-5分子筛由于其独特的十元环孔道结构和可调变的酸性质,广泛应用于催化裂解反应。然而,由于烷烃催化裂解属于平行-顺序反应
学位
页岩气资源量巨大,是常规天然气的一种极为重要的接替资源。目前对页岩气的宏观产能做了较多的研究,但模型预测精度相对较低,严重滞后于生产需要。这除了与复杂缝网表征技术、跨尺度耦合渗流理论等研究以外,页岩微纳孔隙多相流体传输机理及模型的研究也非常重要。与常规气藏不同,页岩储层富含纳米级孔隙,常被称为“纳米多孔介质”,流体在其中的运移受到孔隙壁面分子的强烈作用;同时,页岩的孔喉网络、气水赋存方式、润湿性等
学位
裂缝在油气储层中广泛发育,构成油气聚集空间与运移通道,是影响储层储集能力与开发潜力的重要因素,准确的裂缝定量检测能够有效指导井位部署与压裂施工。基于叠前地震资料所记录的裂缝各向异性特征,开展方位各向异性分析或反演能够一定程度识别出裂缝的相对发育强度与优势方位。但是,这些方法基于垂直裂缝假设,无法识别裂缝倾角的变化,而且通常难以直接获得具有物理意义的裂缝密度。相较而言,数据驱动的方法无需对理论问题进
学位
致密砂岩油气作为一类重要的非常规油气资源近年来已成为我国石油天然气勘探开发领域的战略重心之一;随之而兴起的致密砂岩储层研究也取得了长足发展。然而,尚未取得统一认识的砂岩储层成岩致密化机理制仍然是制约致密油气勘探开发效果的瓶颈。本论文以鄂尔多斯盆地盐池地区三叠系延长组长6油层组致密砂岩储层为研究对象,综合运用野外剖面观测、岩心观察、薄片计点观察、阴极发光、扫描电镜、流体包裹体、能谱分析、X-衍射、碳
学位
中国陆相页岩气资源丰富,勘探潜力大,到目前为止尚未实现大规模的商业开发,重要的原因是对陆相页岩的含气性控制因素及其赋存机理认识不清楚。针对上述科学问题,采用地球化学分析、岩石学分析、扫描电镜、气体吸附和甲烷等温吸附实验手段对陆相页岩的储层特征和含气性特征开展研究,明确了陆相页岩的孔隙结构、润湿性、连通性等储层特征和页岩含气性的主控因素;联合水平衡实验和低温氮气吸附分析了含水饱和度对有效孔隙结构及储
学位
在气候变化和能源安全背景下,面向碳达峰和碳中和目标,全球汽车行业加速向清洁化转型。过去数十年间,中国政府主要通过推广示范应用和财政补贴等方式促进电动汽车产业的发展,这也造成了政府补贴压力过重、车企骗补和创新乏力等问题,因此设计合理的可持续性创新政策成为了亟需解决的问题。2017年随着双积分政策的出台,中国乘用车领域开始引入积分机制,目的是在补贴退坡背景下为我国汽车产业的持续发展提供长效机制。当前积
学位