基于多数据集的胰腺癌分类特征基因研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:khalista5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪以来,随着经济的发展,癌症患者以及其他疾病患者数量急剧增长,不断对我国的医疗水平提出了挑战。如同面对2019新型冠状病毒的袭击一般,我们需要不断地探索、不断地突破,才能使病例被诊断、被治疗。类似于这种无法通过观测表观症状诊断,或者病情还在初期的癌症或者疾病,可通过检测基因测序或基因表达数据提供诊断和治疗的依据。如今,基因芯片技术发展迅猛,公开的基因表达数据越来越多,如何通过这些基因表达数据探索出癌症或疾病诊断方向显得越来越重要。然而,目前癌症基因表达数据研究致力于在少量的样本数据的基础上来提出更佳的相关研究方法,忽略了样本的普遍性与独特性,研究结果说服力度不够。因此本文将研究四个胰腺癌基因表达数据集,并使用一个新的外部样本集检验实验结果。同时考虑到基因之间的相似性,采用了区别于目前许多硬聚类研究的软聚类方法---模糊聚类进行基因分类,寻找更加全面的胰腺癌分类特征基因。本文从GEO公开数据库下载了四个胰腺癌基因表达数据集。采用R语言的Limma包的经验贝叶斯方法分别对四个数据集进行差异表达分析,然后对四个差异分析结果取交集,将其作为后续研究的基础;采用中位数整合法,整合四个基因表达数据集中73个差异基因的表达矩阵,得到含有202个样本的表达矩阵;采用模糊聚类法,将73个基因分类为5类,运用绝对距离法提取中心基因,得到5个分类特征基因;最后使用逻辑回归算法,采用留一法验证,分别对四个基因表达数据集进行样本识别;通过绘制ROC曲线,计算混淆矩阵衍生指标准确率、特异度、AUC值评估分类有效性。结果显示5个分类特征基因在四个数据集均达到80%以上的分类准确率。为进一步验证实验结果,用一个外部胰腺癌基因表达数据集进行样本识别,得到88.46%的分类准确率。经相关研究表明,这5个分类特征基因中有3个与胰腺癌相关,有2个与癌症有密切联系。因此,本文分类特征基因选取方法是有效的,筛选出的分类特征基因可为胰腺癌诊断提供指导意见。
其他文献
地形素描是在对地理环境认知、分析和概括的基础上,用线条来描绘和反映地形、地貌的结构和内在的形质,比简单临摹现实景象更加深刻和真实。然而,随着计算机数字化时代的到来,
地理信息是国家基本国情中的重要战略资源,直接关系到国家安全和利益。矢量数据是被广泛使用的地理信息数据,生产和维护这些数据需要耗费大量的人力、物力和财力。目前在矢量
信号波达方向(Direction Of Arrival,DOA)估计是阵列信号处理在天线阵上的应用之一,在同一DOA估计算法下,DOA估计误差受阵列实际阵元数(阵列孔径)、信噪比和快拍数的影响。阵列阵元数的增加无疑会带来估计成本的急剧上升,如何在阵列阵元数一定时,提高阵列DOA估计精度是值得研究的问题。近几年,互质阵列和嵌套阵列的提出,引起了人们广泛关注,和均匀阵列相比,互质阵列和嵌套阵列能增大阵
北部湾海域因为其优越的自然环境,珠贝质量好,珍珠业较为发达。明政府采取派遣官员参与采珠活动,看守珠池等多种措施管理珍珠业。明统治者为了最大限度数量的获得珍珠,严格管
随着社会不断进步,人们整体文化水平不断提高,对知识的需求也在不断增加。首先,由于知识的需求量不断增加,如何有效的传播知识已经成为研究热点,知识可视化作为一个新兴的领
鱼糜制品由于具备蛋白质含量高、脂肪含量低、口感嫩爽等特点,广受消费者喜欢。随着海水鱼资源的日益匮竭,产量巨大的淡水鱼资源作为替代品逐步被人们重视起来,但是淡水鱼鱼
目的:探讨以课堂学业自立为主题的角色游戏对个案学龄初期儿童课堂学业自立养成的效果。方法:本研究采用单个被试A-B基线实验设计,以角色游戏为自变量,学龄初期儿童课堂学业
郭尔罗斯二旗疆界变迁,是清代蒙旗历史地理变迁中的一部分,也是内蒙古近代社会史的重要内容,研究郭尔罗斯二旗疆界变迁对蒙古史研究具有重要的理论和现实意义,同时对中国边疆
在教育游戏、虚拟教学系统中,尽可能真实的虚拟场景可以增强学习者的学习兴趣,从而促进教学效果。真实的虚拟场景需要大量具有真实感的数字化三维模型。但是单纯通过3D软件人
本文旨在改进随机森林算法来筛选特征基因,希望找出较少的差异基因从而有助于病情的分析,但是人类的基因数量庞大,想要针对某一疾病快速找出差异基因是一件不容易的事情。随