机器学习方法研究癌症分类问题

来源 :重庆工商大学 | 被引量 : 0次 | 上传用户:seven16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,人们收集、传输和处理数据的能力飞速发展。与此同时,带来了很多新问题和新挑战,机器学习方法提供了可行的方法。例如:大量基因序列信息、转录数据、蛋白质数据涌现出来。如果充分利用这些数据来筛查肿瘤的良性和恶性,那么能准确而有效地筛查出肿瘤是良性还是恶性。对病人的早期诊断和靶向治疗至关重要,从而降低人类的死亡率。常见的癌症中,肝癌和肺癌的发病率和死亡率都极高。本文主要利用机器学习方法研究肝部肿瘤良恶性问题和肺部肿瘤良恶性问题。对于肝部肿瘤良恶性预测问题,本文选取Kaggle大数据网站上的579例肝部肿瘤样本数据。以年龄、性别和8个肝功能指标作为预测变量,肝部肿瘤良性和恶性作为响应变量建立七个分类器:逻辑回归、支持向量机、极限梯度提升算法、Ridge惩罚逻辑回归、Lasso惩罚逻辑回归、Elastic-Net惩罚逻辑回归和Adpative Lasso惩罚逻辑回归。以492例病人作为训练样本学习预测模型,再用87例病人测试模型的预测性能,比较七种方法的不同预测精度和预测表现。Ridge惩罚逻辑回归的预测精度最高,获得精度为0.812,灵敏度为0.790,特异度为0.843。因此,利用Ridge惩罚逻辑回归可以有效预测肝部肿瘤的良性和恶性情况。对于肺部肿瘤良恶性预测问题,本文选取威斯康星大学UCI网站的603例肺癌肿瘤样本数据,年龄、病人是否转入普通病房(是,否),重症监护(是,否),血红蛋白和血小板等22个指标作为预测变量,肺部肿瘤良性和恶性作为响应变量。原始数据中肿瘤的良性和恶性之比为13:2,由于分类变量比值相差较大,现运用R软件的SMOTE函数进行数据处理后,数据中肿瘤的良性和恶性之比变为3:1,从而肿瘤的良性和恶性的数据更加平衡。再肺部肿瘤良性和恶性作为响应变量建立八个分类器:逻辑回归、支持向量机、人工神经网络、Ridge惩罚逻辑回归、Lasso惩罚逻辑回归、Elastic-Net惩罚逻辑回归、Adpative Lasso惩罚逻辑回归和组Lasso惩罚逻辑回归。以706例病人作为训练样本学习预测模型,再用176例病人测试模型的预测性能,比较八种方法的不同预测精度和预测表现。人工神经网络预测精度的预测精度最高,获得精度为0.925,灵敏度为0.898,特异度为0.933。因此,利用人工神经网络可以有效预测肺部肿瘤的良性和恶性情况。本文用逻辑回归、支持向量机、人工神经网络、极限梯度提升算法和四种惩罚逻辑回归模型预测肝部肿瘤良性和恶性问题,得出Ridge惩罚逻辑回归预测表现最佳,平均精度为0.812;逻辑回归、支持向量机、人工神经网络和五种惩罚逻辑回归模型预测肺部肿瘤良性和恶性问题,得出人工神经网络预测表现最佳,平均精度为0.925;对于预测肝部肿瘤良恶性问题可以采用Ridge惩罚逻辑回归模型,预测肺部肿瘤良恶性问题可以采用人工神经网络模型。
其他文献
随着调控政策持续加码,人口红利逐渐减弱,行业竞争进一步加剧,终端产品价格上涨,房地产行业发展形势愈发严峻,国内市场规模开始收缩,逐步进入低速发展阶段。近几年,L房地产企业利用自身品牌和规模优势不断壮大,现拥有15家全资或控股子公司,在扩张的过程中L企业施工类子公司绩效管理的问题逐渐暴露出来。如何提升企业运营管理水平,充分发挥绩效管理的强大作用,最大程度的激活业绩增长已经成为L企业亟需解决的重大问题
学位
随着计算机网络的逐渐普及,基层组织以数字化手段监督村社小微权力,完善基层民主建设发展的实践探索已成为基层监督的重要趋势。但是目前关于群众有效参与小微权力智慧监督的研究成果较少,尤其是村两委“一肩挑”后,如何优化村社智慧监督平台运行机制的历史经验不足,让新形势下村社权力智慧监督的研究缺少系统全面的理论参考。本文以W市建设的村社智慧监督平台的实践为例,从平台使用主体、公开流程、核心业务操作等方面分析智
学位
PZ集团是经县政府批准设立的国有独资城市发展建设集团有限公司,企业资产规模大,经营范围广。在我国国企改革的大背景下,对PZ集团这类城发公司的管理,一直是一个重要的课题。企业本是一个纯粹的市场主体,但PZ集团作为国有企业改革的重要组成部分,却不是一个纯粹的市场主体,而是一个平台型组织,政府嵌入性属性明显。由于PZ集团及其各成员企业的设立背景原因,致使集团目前存在多业经营但缺乏市场化运作机制和竞争能力
学位
思辨性思维的发展对于即将踏进成人社会的高中生来说有着非常重要的意义,2017版的《普通高中语文课程标准》中提出“思维的发展与提升”这一学科核心素养,并将“思辨性”提高到了前所未有的高度,国家颁布的教育相关意见以及高考改革也都越来越重视对学生思辨能力的考察。许多研究者也逐渐认识到思辨性教学的意义,展开思辨性教学探索,但是却鲜有研究者注意到将思辨性阅读与写作结合起来研究。语文教学中一直倡导“读写结合”
学位
教育部制定的《义务教育英语课程标准》(2011版)要求小学六年级毕业生要达到二级标准,即:知道单词是由字母构成的;知道要根据单词的音、义、形来学习词汇;学习有关本级话题范围的600-700个单词和50个左右的习惯用语,能初步运用400个左右的单词表达二级规定的相应话题。同时,学生要对所知识进行复习和归纳。在词语和相应事物间建立联想。能初步借助简单的工具书学习英语。然而,对于小学生而言,记下并掌握大
学位
议论文写作讲求表达的准确性与逻辑的严密性,是日常写作教学和高考作文试题命制的主要文体类型。在高考“指挥棒”下,议论文写作的应试观念盛行,学生的写作诉求得不到应有的重视。学生的议论文写作,长期处于被动的“挤牙膏式”的状态之中,缺乏积极性与主动性,议论文写作一直是高中生的软肋,议论文写作教学研究尤为必要。《普通高中语文课程标准(2017年版)》(以下简称新课标)、人教版高中语文必修教材中写作单元的编排
学位
思维导图是一种简单且有效表达思维逻辑的图像式思维工具,自它的出现,国内外的广大教育工作者开始关注并试图将其应用于英语教学中,近几年逐渐被深入推广到英语阅读教学中。相关研究表明,思维导图应用于英语阅读教学中具有一定的积极作用,但在运用过程中仍存在一些因素导致其应用效果欠佳。基于此,本研究试图对五指山市五所中学中的师生进行调查研究,旨在回答以下两个研究问题:(1)思维导图应用于初中英语阅读教学中的现状
学位
近年来,市场竞争越来越激烈,公司财务舞弊事件屡屡发生,康美药业、好未来教育、瑞幸咖啡等财务造假事件震惊全国。这些公司通过非法手段营造盈利假象,却未能被及时发现,说明公司内部控制存在一定缺陷,这也促使社会各界对公司内部控制更加关注和重视。货币资金作为流动性最强的资产,其所承担的控制风险也是最大的。因此,对于企业管理者而言,有效运转货币资金内部控制能有力提高企业的经营能力。本文以Z公司为研究对象,在大
学位
礼物作为一项社会性事实,在人类生活中具有多样的文化价值和社会意义,通过交换、馈赠、流动,它将人与人、人与物、群体与群体之间紧密的联系在一起,形成纵横交织的共同体,在其内部建构出交织的价值意义。礼物交换的本质就是在于建构和维系社会关系,礼物所维系的不仅仅是人与人、人与物、群体与群体之间关系的联结,而是礼物背后所具有的一套与之社会相适应的文化脉络。在长期的历史积淀中,苗族社会创造出灿烂丰富的特色文化,
学位
投票(或选举)主要研究如何将每个投票者的个人偏好聚合成集体偏好,它是计算社会选择理论的重要研究内容。其中一些投票规则是难以计算的,即NP-难问题。如何透明且有效地计算这些投票规则的获胜者以及为投票计算提供开放的计算平台是值得研究的重要内容。本文选取结合了描述性特征和过程性特征的Picat程序设计语言求解了Slater投票规则和Kemeny投票规则的获胜者,它们都是NP-难问题,设计并实现了一个开放
学位