基于优化随机森林混合模型的病症预测分析

来源 :华北水利水电大学 | 被引量 : 1次 | 上传用户:yebailin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据与信息技术的崛起,逐渐渗透到各个领域,其中医疗行业是应用最广泛的领域之一。利用医疗数据进行构建相关体系的模型预测,对提供及时有效的医疗决策具有重要的现实意义。而癌症是医学界的难题,因此如果能够实现对癌症存活性的分类预测,那么就能帮助医生在癌症治疗时做出更正确的医疗决策。肺癌位于癌症死亡率首列,每年有成千上万人死于肺癌,因此本文拟对肺癌数据进行存活性分类预测。使用美国国家癌症研究所SEER数据库的肺癌数据,基于两种优化策略,提出改进随机森林模型实现对肺癌存活性的分类预测。本文主要工作和研究结果包括:(1)对SEER数据库中的肺癌数据进行分析。首先对肺癌数据的来源、获取方法及属性进行了详细介绍,然后通过对肺癌原始数据进行数据可视化、数据清洗转换、类别特征one-hot处理和归一化等操作进行预处理,最后使用欠采样方法来解决肺癌数据不平衡的问题,并利用随机森林算法进行了重要性特征分析。(2)GA-RF肺癌存活性模型的构建。随机森林(Random Forest,RF)模型在构建过程中会产生多个决策树,决策树的数量会对模型的性能产生不同程度的影响;另外在构建最优模型时,其算法中决策树的最大深度也会影响模型拟合程度。因此寻找最优决策树数量以及最适决策树深度可以提高模型的分类性能,最终使用遗传算法(Genetic Algorithm,GA)对随机森林算法中的决策树数量(n_estimators)和最大深度(max_depth)进行参数进化搜索,寻找最优的决策树数量和最大深度组合,构建GA-RF肺癌存活性分类模型,并将改进后的方法与随机森林算法进行比较,实验结果显示改进后的算法具有更高的准确性和泛化性。(3)RF-LG与RF-LGC肺癌存活性预测模型的构建。针对GA-RF模型中遗传算法在搜索过程中存在局部最优解并且随机森林模型处理复杂样本性能较差的问题。对遗传算法优化后的随机森林模型进行分析,最终采用Light GBM(Light Gradient Boosting Machine)和Cat Boost(Categorical Boosting)算法结合Stacking集成算法的思想,构建RF-LG与RF-LGC两种肺癌预测模型。通过调整模型参数、分层十折交叉验证和对比试验的策略进行实验,实验证明,融合模型的偏差比较低,对噪点较为敏感,处理类别型、数值型特征能力强。
其他文献
本文主要研究了二维全空间R~2上粘性浅水和欧拉方程组的无粘性和低弗劳德数的联合极限,及二维有界区域Ω上旋转浅水和欧拉方程组的低弗劳德数极限.全文共分为五章内容.第一章介绍了浅水方程组的研究背景、意义及国内外已有的研究结果,并给出了本文的研究目标及方向.第二章给出了常用的向量分析公式及不等式.第三章研究了粘性浅水和欧拉方程组的无粘性和低弗劳德数极限.通过经典能量方法和相对熵方法,证明了一般初值条件下
学位
转变经济发展方式必须着眼于微观主体企业,只有企业实现高质量发展才能真正推动经济增长方式转变。企业家是企业战略的最终决策者、生产要素的整合者和经营过程中重要创新者,决定着企业未来的发展方向。但企业家个体的某些行为并不是随机产生的,受其自身积累的关系网络的影响,这种关系网络又构成了企业家特有的社会资本,社会资本持有者可以通过企业家精神实现资源向能力转化,最终实现高质量发展。同时,企业经营活动离不开自身
学位
随着科技的进步,由多个队列组成的排队系统越来越多地出现在计算机通信技术、交通运输和电信网络中.针对这类排队系统,一个核心的研究问题是,将传入的作业分配给哪个服务器能够获得最佳性能.负载平衡机制是优化排队网络性能的主要措施之一,能够有效地提高排队系统的服务速率、缩短队列长度,其中加入最短队列规则是常用的负载平衡机制之一.在以往的研究中,加入最短队列规则较多地应用于队列数目较小的排队网络,队列数目N较
学位
为了进一步发展逻辑代数和解决逻辑证明中的若干问题,Novák提出了EQ-代数的概念.EQ-代数是一类包含三种基本二元运算(∧,(?),~)和一个最大元1的特殊代数结构.滤子在各类逻辑代数中扮演着重要角色,本文对EQ-代数上的滤子理论进行研究,主要结果如下.一、在EQ-代数中引入L-模糊正蕴涵前滤子、L-模糊蕴涵前滤子以及L-模糊奇异前滤子的概念,给出三类L-模糊前滤子的实例.以λ-截集为中介,得到
学位
丢番图方程是未知数个数多于方程(或方程组)个数的方程(或方程组),其解为整数解、有理数解或其他带有限制的解.众多学者在研究素变量混合幂丢番图方程的过程中得出了很多很好的结果.关于此类方程,其中一个重要的研究课题就是对方程例外集的研究.对于数论中的许多问题,都可以通过对例外集的不断缩小来逼近理想的结果.本文研究表正奇数n为(?)的情况,得出了其对应的例外集.本文借助堆垒素数论中的圆法,运用了圆法中的
学位
本文主要内容围绕一类修正的Holling-Tanner食饵-捕食者模型,在随机网络下研究扩散项、网络结构以及时滞项对于系统稳定性和分岔行为的影响.全文共分为四章,其主要内容如下:在第一章,主要介绍了具有扩散项、时滞项的食饵-捕食者模型相关研究背景及意义、研究现状和本文的主要工作.在第二章,根据真实生态系统的种群间相互作用、扩散以及迁移等生物机制,建立了捕食扩散随机网络系统,主要利用线性稳定性分析、
学位
颅内出血是指颅骨以内的脑组织出血,对颅内出血患者进行准确诊断、及时治疗能有效提高病人的康复率。利用深度学习技术对颅内出血进行研究,是为了辅助医生进行临床决策、降低误诊率。本文对颅内出血的研究从两方面进行,分别是颅内出亚类型分类和颅内出血病灶分割。在颅内出血亚类型分类中,已有的研究大多基于卷积神经网络,但这些研究忽略了如下问题:网络架构中引入三维卷积神经网络,或联合循环神经网络会给计算机造成负担,挤
学位
1例54岁男性食管癌患确诊后接受TP方案化疗(白蛋白结合型紫杉醇480 mg静脉滴注1次+顺铂45 mg静脉滴注3次)联合免疫治疗(卡瑞利珠单抗200 mg静脉滴注1次),每3周为1个周期。治疗2周期后患者出现心悸不适,复查甲状腺功能五项提示fT3、fT4、TotT3、TotT4较正常水平大幅升高,TSH<0.01 mIU/L,甲状腺球蛋白抗体和抗甲状腺过氧化物抗体滴度高,心电图提示窦性心动过速,
期刊
本文的工作主要围绕带有时滞影响的两个流体动力学模型展开,即具有双时滞的三维不可压Ladyzhenskaya-Lions模型和具有无限变化时滞的三维不可压LadyzhenskayaLions模型,研究了它们解的适定性和长时间行为.本文共分为四章.第一章首先介绍了流体动力学相关模型的研究背景和研究现状,然后概括了本文主要的研究内容,并给出一些常见函数空间和拉回吸引子基本理论.第二章研究了有界区域上具有
学位
变量为三次型除数函数均值可表示为(?)其中,dk(n)是除数函数.本文,我们借助经典圆法和指数和估计的方法,研究了当k=2,l=5和k=4,l=6时的除数函数均值问题,分别得到了其误差项具有幂节余形式的渐近公式,即定理1对于x≥2,我们得出渐近公式其中(?)定理2对于x≥2,我们有(?)其中(?)i,j(0≤i≤j≤3)是整数.
学位