基于机器学习的乳腺癌分析预测研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:iis1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据《2020全球癌症报告》显示,2020年全球乳腺癌发病率和死亡率高居癌症数据榜双第一,乳腺癌已经取代肺癌,成为全球第一大癌症。为了让患病率日益增加的乳腺癌得到更多的重视,2021年3月,世界卫生组织发起了应对乳腺癌倡议,希望在未来到2040年,每年乳腺癌致死率可以降低2.5%。对于乳腺癌来讲,改善预后、提高存活率的关键是早期发现,此外,乳腺癌癌症患者可以通过良好的预后分析大幅度的延长生存时间,提高生存质量。因此,本研究主要关注乳腺癌疾病早期诊断和预后分析,应用机器学习和数据挖掘技术并结合统计学的分析方法,通过构建模型来分析现有的临床数据,以达到对乳腺癌疾病有一个较高准确率的患病分析判断和预后生存率预测。针对乳腺癌疾病的早期诊断,本文提出了一套基于改进随机森林优化算法的乳腺癌临床数据分析处理模型。首先对获取的乳腺癌临床数据进行共线性解释分析和模型选择,采用因子分析的方法来对乳腺癌数据集进行变量解释和变量共线性分析。在模型选择时,通过复现多个算法模型,比较模型的的预测准确率,分析不同的模型在乳腺癌数据集上建立诊断分类器的效果,选择最优的随机森林算法模型来作为乳腺癌诊断的模型。其次,利用Select Kbest算法进行数据筛选,以减少特征间存在的复杂的相互关系,并使用遗传算法来优化随机森林分类器模型的参数选择,并使用遗传思想来最大程度地评估参数选择提高准确性分类。在这项研究中,所选用的衡量标准是算法模型的精准值、召回率、F1分值、AUC值,实验证明运用该方法优化模型后以上衡量标准的准确率均有提升,所提出的方法给具有强共线性的临床数据处理和疾病预测提供了一种新思路。针对乳腺癌疾病的预后分析,本文提出了一套基于COX比例风险回归模型和Kaplan-Meier模型的乳腺癌三重生存相关性基因筛选方法。首先从c Bio Portal数据库获取与乳腺癌相关的数据集,包括基因表达、拷贝数和临床数据,对下载好数据进行预处理后通过所提出的方法对数据集进行三重过滤筛选,找到跟乳腺癌患者生存显著相关的九个乳腺癌相关性基因。然后以这九个乳腺癌相关性基因作为特征样本,分别使用决策树算法、逻辑回归算法、神经网络机器学习算法和XGboost算法来构建预测模型,以预测患者的预后二年生存率,结果显示在四种不同的机器学习算法模型中对乳腺癌患者二年生存率的预测都有不错的预测结果。九个基因对患者的生存相关性评估可靠。经过三重筛选,可以发现与乳腺癌相关的九个基因与乳腺癌患者的生存时间有很强的相关性,可以准确地预测乳腺癌患者的预后生存时间。
其他文献
学位
本文论述人称指示语的反先用现象及其语用功能,分析第一、第二、第二人称指示语先用与反先用的交叉并用及其语用功能,重点研究固化后的人称指示语反先用现象:人称指示语本身具有先用的性质,但是在某些特定语境下,人称指示语先用性质不能传达说话人的意图、情感、态度等,说话人常常违反人称指示语的先用性质,而使用人称指示语的反先用。反先用现象最初是为了在言语交际过程中达到自己的交际意图,逐渐发展成为人们习以为常的语
猕猴桃作为雌雄异株植物,其早期性别鉴定对于育种和增加其经济价值有着重要意义。文章通过开发毛花猕猴桃性别相关的简单重复序列(simple sequence repeat, SSR)分子标记,以期能在早期鉴定出毛花猕猴桃雌雄植株,提高毛花猕猴桃资源利用率。利用MISA工具从毛花猕猴桃雌雄基因组的29条染色体筛选获得381 250个SSR位点,并对SSR位点的数量与分布特征进行统计分析。设计合成150对
<正>图片是初中历史教科书的重要组成部分,包括人物图、文物图、历史地图等,可以形象地呈现相关史实,增强课堂教学的直观性、形象性,提高历史课堂教学的效率。因此,研读历史图片是学好历史的重要手段之一。其中,研读人物图和文物图,从中获取有效信息,有助于培养学生的史料实证能力;研读历史地图,借以把握历史事件发展的经过,可以培养学生的时空观念。下面,笔者就如何利用图片来提高历史课堂效率谈谈自己的一些做法与体
期刊
近年来,以深度学习模型为基础的人工智能研究不断取得突破性进展,但其大多具有黑盒性,不利于人类认知推理过程,导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国防、医疗、网络与信息安全等对可解释性要求严格的关键领域,推理方法的不可解释性对推理结果及相关回溯造成较大影响,因此,需要将可解释性融入这些算法和系统中,通过显式的可解释知识推理辅助相关预测任务,形成一个可靠的行为解释机制。知识
计算机技术虽然具有便捷性等优势,但是其安全性相对较低。在运行过程中,计算机网络安全会受到黑客攻击、病毒攻击和系统漏洞等多种因素的影响,可能会出现文件丢失、系统故障等问题。为了维护计算机网络安全,应灵活应用网络入侵检测技术、防火墙技术和加密技术等网络安全技术,减少其他因素对网络安全的影响。
目的:探讨血浆动脉粥样硬化指数(atherosclerotic index of plasma,AIP)、白细胞(white blood cells,WBC)计数和中性粒细胞淋巴细胞比值(neutrophil lymphocyte ratio,NLR)对急性冠状动脉综合征(acute coronary syndrome,ACS)的风险预测和冠脉病变程度的评估价值。方法:将2019年1月至2021年
高职院校产教融合发展必须从全面推进校企共建教学团队这一环节入手,校企共建教学团队能够提升教师的主体地位,有助于推进“双师型”教师政策的实施和提升办学质量。校企共建教学团队,可以通过建立校企共建研究中心、设立产业学院和高职联盟平台及政府平台来拓宽教师团队的引才渠道,还可以通过建立教师管理机制、制定工作平台制度、推行产业教授制度、实行校企双向流动制度来强化制度建设,提升教师的整体素质。
<正>对于现代企业来说,若想在市场中保持竞争优势,必须要对战略管理予以重点关注,将自身的发展现状作为出发点,对既定的战略方针予以完善,确保和市场实际需求时相符的,如此方可使得企业规模逐渐扩大,发展也更为稳健。在当前时期,市场竞争变得越发激烈,企业所要面对的挑战也大幅增加,这就要求企业强化战略管理,确保资源规划更为合理,如此方可在市场中保持竞争优势。本文主要针对企业战略管理展开深入探析,
期刊
知识图谱表示学习方法旨在将知识图谱中的实体和关系嵌入到低维连续的向量空间.由于知识图谱本身具有数据稀疏性的问题导致学习出的向量表示性能欠缺.实体的类别信息包含了丰富的语义,引入它能够更好地指导向量表示的学习.已有结合类别信息的表示学习方法要么不支持类别信息的层次化结构或者关系的类别约束,要么对层次化结构的建模过于复杂.提出一种结合层次化类别信息的表示学习方法.我们将类别嵌入到不同的向量空间,使用偏