基于数据分析的癌症标志物识别及肿瘤进展阶段分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:tanhuafuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症种类繁多,日益频发,严重威胁了人类的生命健康.它的致病原因复杂多变,难以识别,治愈情况也不理想.早诊断早治疗可以提高癌症患者的生存率,但是受多方面因素的影响,很多癌症患者确诊时已处于中晚期,5年生存率很低.随着机器学习算法以及生物信息学的不断发展,利用基因表达数据对癌症诊断标志物的识别以及肿瘤进展阶段的研究,逐渐成为人们关注的热点之一,也对癌症早期诊断有着积极深远的意义.本研究旨在通过对大量芯片数据的分析,高通量筛选出癌症的特异性表达的基因,鉴定早期非小细胞肺癌的诊断标志物,同时研究肿瘤进展阶段的有效分类,提高癌症分期的分类精度.针对这两个方面,本文通过大量的文献研究,进行了如下工作:(1)对从GEO数据库中下载的76例早期非小细胞肺癌的重要基因表达数据进行了一系列的生物信息学分析,其中包括腺癌样本40例,鳞状细胞癌样本16例,健康样本20例.为了确定诊断的特异性标志物,我们将两种亚型分别与正常样本进行比较,以确定基因表达特征.通过无监督的多维定标分类分析,我们发现样本按照疾病亚型很好地聚类.基于分类结果,通过线性模型拟合和经验贝叶斯方法进行统计推断,共分析筛选出486个与该癌症相关的重要基因.随后,对这些差异表达基因进行了基因本体功能分析和通路分析.根据所选基因之间的相互作用,构建了蛋白质-蛋白质相互作用网络图,选出了13个与肺癌或其他癌症高度相关的核心基因,最后结合TCGA临床随访数据分析核心基因的临床预后价值.研究结果表明,将肺癌不同亚型的基因表达数据与正常样本数据比较,为非小细胞肺癌的检测提供了重要信息,有助于探讨肺癌的发病机制.(2)对早期非小细胞肺癌的肿瘤阶段进行分类研究,总共包括32个第一阶段样本,24个第二阶段样本.通过无监督的多维定标分类分析,我们发现样本按照肿瘤阶段没有理想的分类效果,样本之间没有明显的界线.为研究非小细胞肺癌有效的分类方法,提高肿瘤进展阶段分类的准确性,我们提出了一种结合多种特征选择算法和分类模型的机器学习算法.为得到可靠的特征集,从训练集中提取特征,分别采用过滤法的5种特征排序方法后的交集进行初筛选,在此基础上,采用Lasso方法进行精筛选,最终筛选出20个特征基因,并将它们用于分类.在10折交叉验证和测试集的基础上,对不同分类模型的性能进行了评估.这20个特征基因最终使得阶段分类的平均准确性都达到了95%以上.为了使本文采用的特征选择和分类方法更具有说服性,我们将方法应用到了另外一组数据GSE2990.结果显示,本算法确定的特征基因建立的分类模型的预测准确性均高于随机选取相同数目的基因建立的分类模型预测的准确性.本研究结果表明基因表达谱的数据分析可用于肿瘤进展阶段的分类分析,为其早期检测提供了重要信息,有助于疾病发病机制的探索.
其他文献
极端降雨、台风等造成的水涝不仅限制了海南油茶的种植,还会直接影响油茶的生长和产量。亚精胺(C7H22N3,Spd),是一种提高植物对环境胁迫抗性的生物活性物质,是植物在调节自身生长发育过程中重要的生理代谢调节物质。本研究旨在揭示外源亚精胺对水淹胁迫下不同品种油茶生理生化及抗性的影响,评估外源亚精胺对提高油茶耐水淹能力的效果。本研究以两个海南本地油茶品种海林一号(C.oleifera“Hailin
四元数神经网络(QVNN)是实值神经网络(RVNN)及复值神经网络(CVNN)的一种拓展形式,在四维图像、机器人及人体图像等领域有着广泛的应用.本文在已有结论的基础上,研究了两类四
重金属盐虽然在工业生产中发挥了重要的作用,但因其毒性会造成严重的环境污染。同时,重金属离子会和蛋白质螯合,使蛋白质变性。蛋白质作为机体内第一营养要素通过转变成氨基
相比于发达西方国家,我国物流业起步相对较晚。虽然近些年取得了长足发展,但是物流业整体运行效率偏低。据相关资料统计发现,在运输、配送、仓储、装卸搬运、流通加工和信息
针对现有的超声图像中甲状腺结节检测与识别方法存在无法精确定位、检测准确率不高的问题,研究基于多任务深度学习的甲状腺超声图像中结节的自动检测和性质识别问题,提出并构
随着人工智能技术的发展,孤独症评估方式也悄然发生着改变。传统的问卷量表评估方法,缺乏客观量化的评价指标而依赖于临床治疗师的专业经验。不仅需要培训专业的观察人员,经
随着国家清洁能源战略的持续推进,包括风电、光伏等在内的可再生能源发电量在电网的占比逐渐增加,电网的抵御风险的能力随之下降,因此,火电机组承担的电网调频任务对电网运行安全显得尤为重要。对于火电机组而言利用自身蓄热来响应电网一次、二次调频的需求,其效果总是不尽理想。随着电网考核和激励政策的出台,火电机组不得不采用主蒸汽调节阀门深度节流的方式运行,但是这种汽机主汽门节流运行的方式不可避免地会对机组经济性
随着我国经济水平的快速提升,轨道交通以及其他隧道工程建设呈“井喷”发展。土压平衡盾构是城市隧道施工中应用最多的工法,土压平衡盾构特点是利用切削下的土体作为开挖面的
新兴的忆阻交叉阵列由于非线性、非易失性、低功耗和高集成度等优点,在神经形态计算系统(Neuromorphic Computing Systems,NCS)中具有很好的应用前景。但是大多数大型神经网
伴随着社会科技与日俱进的发展趋势,无线传感器网络技术的在人类生活应用中显得愈发重要。不论是在环境监测领域、军事领域、工业控制领域、医疗领域,还是在灾害监测预报、公