基于机器学习的宫颈癌危险因素分析

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:mawenxing8155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生活水平的提高,国家对于女性健康给予了更多的关注与支持,宫颈癌作为常见的恶性肿瘤疾病严重威胁女性健康。研究表明,发展中国家的宫颈癌发病率远高于发达国家,我国是世界上最大的发展中国家,更应该对宫颈癌进行预防和排查。用于检验宫颈癌的传统电子影像分析耗时耗力,成本过大,加重了医务工作者的负担。本文利用机器学习算法构建宫颈癌预测模型,提高宫颈癌诊断效率和预测准确率,减少人力物力的损耗,更好地利用有限的医疗资源。首先,对原始数据进行处理,寻找特征缺失值超过总特征数一半的样本以及特征数少于16个的样本并将其删除,接着计算特征之间的相关性,以0.5为阈值找到强相关的特征对,这些特征对为缺失值的补全提供指导。无相关特征对的特征缺失值则采用众数或均值进行特异性补全。处理后的数据进行标准化处理,以减少规模差异对模型带来的影响。其次,分析样本不平衡技术对宫颈癌数据预测性能的影响。宫颈癌数据的收集比较困难,样本类别通常不平衡,大部分情况下阴性样本多,阳性样本少,阻碍了模型对数据结构的学习。本文讨论三种先进的样本不平衡技术SMOTE、kmeans-SMOTE和AMSCO,在七种分类模型中选出最优的分类框架。经过实验,原始数据在六种评价指标下的平均预测率为0.5420,最佳不平衡处理技术为kmeans-SMOTE,其平均预测率达到了0.6047。此外,经不平衡技术处理后,阳性样本的预测准确率达到了0.5439。结果表明,不平衡技术和分类模型能深入学习到正负样本之间的差异信息,能够对癌症患者给予更高的预测准确率。然后,分析特征选择技术对宫颈癌数据预测性能的影响。原始数据所包含的特征多而杂,许多因素对预测模型不仅没有贡献,甚至干扰模型性能。这里重点讨论主成分分析、包裹式(递归特征消除算法)和嵌入式(基于Gini系数的随机森林模型)三种算法。经过实践,最佳特征选择模型为基于Gini系数的随机森林算法,在四种目标变量下Weighted F1-score均值达到了0.8766,最高值达到了0.8960.,而只进行不平衡技术处理的Weighted F1-score均值为0.8627,最高值为0.8718。经过特征选择后,模型的预测性能得到了进一步提升,同时利用Gini+随机森林算法对宫颈癌危险因素进行了排名。最后,考虑到弱监督模型的局限性,本文在个体学习器的基础上又引入了异质集成器Stacking并探究其预测性能。通过对比多种模型的泛化能力,最终确定以Ada Boost模型为次级学习器,以支持向量机、XGBoost和MLP为初级学习器的Model 2模型为最优模型。经过实验后,选择kmeans-SMOTE进行样本不平衡处理,使用基于Gini系数的随机森林模型去除冗余特征,最后确定Model 2为分类模型。在该预测框架下,最高Weighted F1-score达到了0.9119,具有较强的稳健性,相比原始数据的最高Weighted F1-score 0.8045,提升了0.1074。
其他文献
1944年,《博弈论与经济行为》一书的出版标志着系统的博弈理论产生.博弈论主要关注理性个体在特定的环境下如何进行决策.针对有限博弈,其中一个重要的研究方向是探究其在策略形式下的拓扑结构,这对揭示有限博弈的本质特征和分析其相应演化博弈的动力学具有显著作用.本文基于矩阵半张量积方法,构建了有限纯调和博弈和有限多势博弈的向量空间基底,基于此,进一步探究了有限纯调和博弈的纯策略纳什均衡和有限多势博弈的纯策
学位
在过去的几十年中,许多研究人员将重点放在动力学系统的Lyapunov渐近或指数稳定性上.渐近或指数稳定性的典型特征之一是,随着时间趋于无穷大,解将趋于平衡状态.因此,难以实现快速的瞬态和高精度的性能.有限时间稳定性作为渐近稳定性的特例,意味着系统在有限时间内达到平衡状态,这为解决许多工程问题提供了一种有效的工具.经典的有限时间稳定性定理在许多领域得到了广泛的应用,如复杂网络的有限时间同步,航天器的
学位
数学学习障碍是当前国内外数学教育界所亟待解决的重大难题之一。在数学学习过程中出现的学习障碍如果不能及时的调整,将会影响学生下一阶段的学习,甚至影响其一生。在数学课堂教学环境中,学生个体的学习状态和能力对于学习效果有直接影响。教学行为干预模式(Responsiveness-to-Intervention,RTI),最早兴起于美国。研究者们发现该模式能够有效克服识别数学学习障碍的传统模式容易误诊、干预
学位
本论文主要研究距离控制数和距离控制圈的相关问题.设G=(V(G),E(G))为一个简单图.如果对于任意不属于顶点子集S的顶点v,都在S内存在一个顶点u满足dG(u,v)≤2,则我们称S∈V(G)为G的2-距离控制集.G的2-距离控制数2(G)是指G中最小的2-距离控制集的大小.设m是一个非负整数,给定图G上的顶点v和圈C,若G中任意的顶点v到圈C的距离都小于等于m,我们称圈C是图G的一个m-距离控
学位
本文发展了双参数奇异摄动问题在Bakhvalov-type网格上的有限元方法.双参数奇异摄动问题是奇异摄动问题的一个分支,它们出现在物理学和力学的许多领域中,其中包括液晶材料和化学反应的数学模型,电子网络,控制理论等.因此近年来关于此类问题的研究引发了广泛关注.众所周知,由于小摄动参数的存在,奇异摄动问题的解中通常会存在变化剧烈的层,此时经典的数值方法无法给出高质量的数值解.因此人们开发了不同的数
学位
在核心素养的要求下,学生不仅要掌握基本的知识技能,还要体会其中所蕴含的思想方法,发挥学习的主动性,对知识充满好奇心、求知欲。因此教师应该发挥他们的主导作用,引领学生学会主动学习。函数的基本性质是高中数学学科中比较重要的一部分内容,所包含的知识点不仅多而且十分的复杂和抽象。学生接受起来不容易,因此需要寻求更好的教学方式进行教学。而样例教学对学生来说是一种有效的教学方法,并且它也是发挥学生主动性的一种
学位
当前,注重数学语言的表达是世界各国课程发展的趋势,加强数学语言的表达和交流也是我国课程标准的要求,数学语言的表达、交流水平同样也决定着核心素养的落地水平。但在研究分析中发现,当前对于数学语言的研究关注热点,主要在数学语言的重要性以及如何提升学生的数学语言表达能力方面,对于高中生数学语言表达障碍的研究较少且不够深入,这也说明,对于数学语言表达障碍并未形成深刻认识。因此,全面分析高中生在数学语言表达方
学位
《普通高中数学课程标准(2017版)》指出,数学学习要以学生为主体、以学生发展为本,创设合适的情境引发学生思考,引导学生把握数学学习的本质。由此可见,数学学习愈加重视对本质的认识。因此,概念教学受到越来越多的重视。并且可以发现,新课标的理念与弗赖登塔尔的再创造思想相吻合。基于此,本文以再创造为理论基础,选取高中的核心内容——函数作为研究对象,进行概念教学的相关现状研究。本文通过对现有文献的研究,梳
学位
在当今社会,个人信贷业务快速发展,信贷机构从贷款中获利的同时,也承担着相应借款人违约的风险.如果借款人发生违约行为,信贷机构会遭受严重的财产损失,因此,信贷机构希望通过贷款申请人提供的征信信息来识别违约风险.与此同时,数据挖掘方法在金融风控领域得到广泛应用,使用数据挖掘方法来预测个人贷款违约行为就成为了重要的研究方向.本文以国外信贷平台Lending Club用户的2017年信贷记录为例,建立个人
学位
近年来,随着互联网技术的发展,电信运营商承载着大量的用户数据。同时随着经济的不断发展,电信用户的个性化需求也日益凸显。在通信市场已经达到饱和的状态下,面对用户产生的大量数据和个性化需求,精准营销、及时主动推荐以及实现企业价值和客户价值的共同提升将是电信运营商面临的新挑战。基于新的背景新的挑战,本文利用数据挖掘技术对电信用户进行评分并给出合理的用户提值策略以维持甚至提高用户的粘合度。首先,本文对数据
学位