基于机器学习方法的肺癌分型预测

来源 :山东大学 | 被引量 : 0次 | 上传用户:lbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据最新的癌症统计报告,我国肺癌死亡率高居榜首,肺癌死亡人数占到了癌症死亡病例的20%。随着国家经济社会的发展,中国癌症发病类型正在向发达国家主要类型转变,肺癌高发病率在男性群体中尤为突出。其中确诊病例中绝大部分病例为肺腺癌、肺鳞癌和小细胞肺癌,不同的肺癌类型有各自的特异性治疗方法,所以在治疗前需准确了解患者类型,对症下药。目前,临床使用的肺癌类型检测方法多为穿刺和手术提取组织等侵入式方法,侵入式方法存在并发症风险,为肺癌患者治疗造成不利影响。在数据信息呈几何式增长的当下,大量的医疗数据为数字化诊断提供了可能,建立一套完整的非侵入型肺癌亚型预测模型作为辅助诊疗手段具有十分重要的意义。本文基于国内某三甲医院记录的入院肺癌患者数据,提出了一种非侵入型肺癌类型诊断方案,使用机器学习方法对肺癌亚型进行预测,主要内容包含以下方面:(1)针对医学数据特点选用适当的数据预处理方法。医学数据具有杂乱的特点,数据记录不规范,数据缺失现象严重,甚至存在样本标签的缺失,这些问题为分类模型构建造成了巨大困难。本文使用K近邻插补方法对缺失值进行预处理,解决了数据缺失问题。其次,医学数据由于其发病率先验概率的原因,存在数据不平衡现象,本文使用SMOTE过采样方法对数据进行平衡化处理。(2)基于不同方法,选择最优特征子集。本文数据包含了患者诊断信息、化验指标、慢性病史等六十余项指标,针对不同的机器学习模型,所需要的特征也不尽相同。本文选择了三大类五小类特征选择方法进行特征提取,包括过滤式方法(相关系数法、互信息法、Relief-F等)、包裹式方法(向前选择、向后选择、全局搜索)和嵌入式方法(LASSO、岭回归)。(3)提出了基于机器学习方法的肺癌分型预测模型。文中选择了三种机器学习方法,包括支持向量机、随机森林和概率神经网络,结合特征选择方法来构建预测模型。文中选择准确率、召回率和AUC值作为评价指标,最终选择出随机森林结合Relief-F特征选择法具有更好的预测效果。
其他文献
秦岭造山带在地理位置上处于我国青藏高原的东北缘方向,其南北两侧分别为扬子地块和华北地块,是特提斯构造域和古亚洲洋构造域的转换带。本文基于对一条起始于扬子地块,横跨秦岭造山带、鄂尔多斯地块,最终到达河套地堑的南北向大地电磁测深剖面的研究,探讨秦岭造山带的深部电性结构特征与扬子和鄂尔多斯地块接触关系,以及青藏高原物质东北向逃逸等地学问题。本文所研究大地电磁剖面长约1200km,剖面上共布设61个宽频大
学位
近年来,燃煤电厂通过实施系列改造,实现了烟气中SO2、NOx和PM的超低排放,为我国大气污染物控制做出了贡献。燃煤烟气污染物控制进入了新阶段,非常规污染物的排放和控制受到广泛关注。燃煤烟气中的酸性气体除了 SO2和NOx外,还含有微量的SO3和HCl。烟气中的SO3导致空预器堵塞,造成烟气系统阻力增加;HCl导致湿法脱硫中脱硫废水的大量排放。碱性吸收剂喷射可实现烟气中SO3的脱除,并已经得到工业示
学位
<正> 头痛系病人的一个自觉证状,在临床上极为常见,笔者采用川芎茶调散加减,治疗本病150例,其中,年龄最大的65岁,最小14岁;男52例,女98例;病程最长10年,最短3天;外感头痛86例,内伤头痛28例,瘀血头痛36例。治疗方法:川芎茶调散加减,重用川芎治之。风寒头痛去茶叶,加粉葛、法夏、吴萸、藁本之类;风热头痛去白芷,加白菊花,陈茶叶泡汤兑药水服;风湿头痛去茶叶,加苍术、藁本;肝
期刊
新冠肺炎疫情爆发已经超过两年,但是全球疫情形式依旧不容乐观。多国疫情出现多次的爆发和反弹,给社会运行、经济发展和民众生活带来严重影响,在全球范围内给人类社会造成巨大冲击。以美国为例,截至2022年3月4日,美国累计确诊病例78428884例,累计死亡病例947625例。如此惨痛的代价却未能改变美国防疫乱象的局面,美国新冠肺炎疫情仍在不断发展和扩散。因此,认识和研究疫情发展规律,对于全球疫情防控来说
学位
近几年,经济全球化遭遇挫折,国际经济循环格局也发生深度调整,更重要的是逆全球化趋势也被新冠疫情加剧。随着经济发展进入新常态和新冠疫情的影响,当前中国经济面临一些挑战,如需求收缩、供给冲击、预期转弱的三重压力,伴随着多重冲击,中国经济面临的下行压力加大。在实体经济发展的过程中,可以看到债券市场的重要作用,它拓宽企业融资渠道,促进实体经济发展、分散金融风险,因此随着债券市场的发展与扩容,企业首要的直接
学位
随着国内金融市场的不断开放,一大类金融原生衍生品的出现为国内金融市场增添了许多活力。期权合约作为金融市场上一个重要的金融衍生工具,其种类繁多,因其灵活的交易方式为广大投资交易者提供了很多套期保值、规避风险的方案。因此研究期权的定价问题也成了金融行业一直以来重点研究的方向之一。美式期权,作为一种灵活性高的期权合约,其定价也常常因为持有人在到期前的行权任意性变得比一般的传统欧式期权定价要复杂很多。对于
学位
SO2和NOx是常见的大气污染物,不加治理不仅会带来严重的环境问题,还会危害人体健康,故探索高效的脱硫脱硝方法刻不容缓。目前烟气脱硫脱硝普遍是分开处置,工艺复杂,相比较于石膏、强酸等脱硫产物,催化还原同时脱硫脱硝方法因其还原产物为我国稀缺资源硫磺和无害气体N2而广受关注。同时CO在烟气中与SO2、NOx普遍共存,来源广泛,因而CO催化还原SO2和NOx极具应用前景,但目前针对高SO2浓度下硫硝协同
学位
伴随着手机支付的快速发展,电商平台的欺诈交易现象变得越来越严重,欺诈交易检测一直是电商平台风控系统的一个重要部分。但是在平台严厉打击这些欺诈交易的同时,犯罪分子的欺诈手段不断升级,欺诈能力也不断提升,导致欺诈风险持续走高,社会经济损失不断扩大。因此,如何准确识别欺诈交易成为了一大重要的研究课题。本文从交易涉及的主体入手,构建了一个包含交易、地址、IP、手机号类型节点的异构图,旨在解决电商平台欺诈交
学位
马尔科夫过程(马氏过程)作为一类重要的随机过程,一直被广泛地研究,特别是在早期研究股票和利率模型时,马氏过程往往是学者们建模的首选.在金融统计的研究中,往往假设模型是扩散过程(马氏过程),这时可以利用扩散模型的波动率函数来研究波动率.因此,有很多学者深入研究了扩散过程的统计推断,比如使用NW估计量和局部线性估计量来估计扩散过程的扩散系数.然而,在实际应用中,使用马氏过程进行建模时,得到的估计往往会
学位
单个机械通风冷却塔冷却量有限,所以机械通风冷却塔常以塔群形式布置。在环境风与冷却塔风机抽力的作用下,冷却塔出风口排出的热空气易被冷却塔进风口再次吸入塔内,形成热风回流,导致塔群实际冷效低于设计值。目前有关规范对机械通风冷却塔塔群布置做了要求,但是缺乏对侧风的考虑。当前已有部分学者根据具体工程分析了侧风对塔群的影响,但是缺乏系统的分析研究,因此有必要对机械通风冷却塔塔群热风回流展开研究,为以后设计塔
学位