基于随机森林算法的肺结节病差异基因筛选及生物信息学分析

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:jakey17866747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究旨在利用GEO数据库中收集到的肺结节病基因表达谱数据,应用SAM算法和随机森林算法相结合的方法进行差异基因筛选,通过对肺结节病基因表达谱数据进行一系列的生物信息学分析,研究与肺结节病相关的基因并鉴定其关键调控基因,为肺结节病病因及发病机制的研究提供新的视角,促进人群健康。方法:本研究对肺结节病基因表达谱数据的生物信息学分析可粗略分为数据预处理、差异表达基因筛选和基因功能富集分析及PPI分析三个部分。首先,利用线上GEO数据库,从数据库找到并下载得到肺结节病原始数据,使用稳健多阵列平均算法(RMA)对肺结节病原始数据进行数据进行标准化等预处理,获得利于后续分析的基因表达矩阵。然后,使用SAM算法对处理好的矩阵数据进行初步的差异筛选。随后,对SAM算法初筛得到的差异表达矩阵数据建立随机森林分类模型后,根据随机森林算法给出基因重要性评分,筛选得到最后的差异表达基因。此外,本研究还对所使用的筛选方法与常见的差异基因筛选方法稳健t检验法等进行了稳定性的比较。在获得有意义的肺结节病差异基因后,我们利用在线数据库对肺结节病差异基因进行GO及KEGG富集分析。最后利用STRING数据库对差异表达基因构建蛋白相互相互作用网络,经Cytoscape软件可视化后,使用相关算法找到与肺结节病相关的关键基因。结果:经过SAM算法初筛,得到了9268个差异表达基因。随后建立随机森林分类模型,获得差异表达基因重要性排序,筛选得466个重要差异表达基因。对随机森林算法筛选获得差异表达基因,我们进行了GO功能富集分析和KEGG通路富集分析。通过GO富集分析发现,肺结节病差异表达基因在生物过程上,主要参与了血糖稳态、RNA剪接的调控、氧化还原反应、支气管软骨发育、组织稳态等生物过程;在参与生成的细胞成分上,差异表达基因主要富集在线粒体膜间隙上;在参与的分子功能上,差异表达基因主要参与了水解酶活性等分子功能。通过KEGG通路富集分析,发现差异表达基因主要与嘧啶代谢等代谢途径、ABC转运蛋白通路、趋化因子信号通路、Jak-STAT信号通路、c GMP-PKG信号通路、耐EGFR酪氨酸激酶抑制剂通路、耶尔森菌感染途径、人巨细胞病毒感染以及RNA转运等通路有关。通过STRING数据库,我们构建了466个差异表达基因的蛋白-蛋白相互作用网络图,获得了376个节点,390条边。经过Cytoscape软件可视化后,在cyto Hubba程序中按照四种算法排序的前20个基因进行重叠,一共得到了6个核心基因,分别是AKT1、STAT3、ALYREF、PA2G4、CTGF以及IL13。结论:与常见的稳健t检验筛选方法相比,微阵列显著性分析(SAM)和随机森林算法相结合的方法筛选差异表达基因精确性更好,共获得466个差异表达基因。对筛选得到的差异表达基因进行GO和KEGG富集分析,结果与已有研究基本一致。对肺结节病差异表达基因构建PPI网络及hub基因筛选,得到调控肺结节病发生的关键基因为AKT1、STAT3、ALYREF、PA2G4、CTGF以及IL13。其中STAT3、IL13基因对肺结节病发生的重要性已在相关研究中得到证实。
其他文献
目的:矽肺是由于在生产过程中长期吸入游离二氧化硅粉尘引起的以肺部弥漫性纤维化为主要表现的全身性疾病。矽肺的发生发展呈进行性,病理过程包括炎症期和纤维化期,其病程缓慢、发病机理尚不明确,最终导致不可逆转的肺纤维化病理改变。前期研究表明,自噬和内质网应激在矽肺炎症和纤维化病程中发挥重要作用,而自噬与内质网应激的关系尚未完全阐明。因此,本研究拟探究内质网自噬与内质网应激在矽肺发生发展中的相互作用及作用机
目的:急性腹膜炎为普外科最常见的急腹症,因此,本研究试图探究大黄牡丹汤加减方在急性腹膜炎治疗中的临床价值,尝试改进腹腔感染中不同种类的疾病的治疗策略。研究方法:研究对象为中国医科大学绍兴医院收住普外科的143例诊断为急性腹膜炎的患者,时间范围为2018年12月-2020年12月,对其临床资料进行回顾性的分析。所有对照组(西医治疗组)患者均采用常规对症治疗方法,如抗感染、营养支持、腹腔镜手术、胃肠减
目的:矽肺病是最常见和严重的职业病之一,这种疾病至今仍没有有效的治疗方法。在矽肺病理发生发展过程中肺泡巨噬细胞发挥了极其重要作用,它是二氧化硅粉尘作用最主要的靶细胞。同时,由于矽尘的毒作用,使部分肺泡巨噬细胞崩解死亡,释放出被吞噬的粉尘和细胞内容物ds DNA(double-stranded DNA),ds DNA与自身抗体结合形成免疫复合物,加重肺部炎症反应。LC3相关吞噬作用(LC3-asso
目的:急性肺损伤(acute lung injury,ALI)是由于多种疾病的致病原因导致的肺部损伤,易发展为呼吸窘迫综合征甚至是肺纤维化等,通常表现为大量中性粒细胞积聚、间质水钠转运障碍和上皮损伤。上皮钠通道(epithelail sodium channel,ENaC)主要负责肺泡腔内水盐转运和肺泡液的清除,ENaC功能障碍加重了ALI的发生和发展。外泌体是细胞分泌到细胞外,参与各种活动的活性
利用科学知识类图画书开展科学探索活动是幼儿科学教育的一个有效途径。在活动实施过程中应着力把握几个要点:选取合适的素材,把握活动的科学性;确定幼儿的最近发展区,把握活动的针对性;运用各种科学教育的方法,把握活动的有效性。
目的:肺纤维化(pulmonary fibrosis,PF)是一种极难治疗且死亡率高的肺部疾病。肺组织的损伤修复包含四个不同阶段,包括凝血期、炎症期、成纤维细胞增殖阶段,以及正常组织结构的最后愈合阶段。而PF发生与发展的关键是成纤维细胞的增殖和分化。肺部受损导致上皮/内皮细胞释放大量细胞因子,这些细胞因子会使炎症反应放大并进一步触发成纤维细胞增殖和分化,从而表达α-平滑肌肌动蛋白和细胞外基质成分。
目的:目前肺癌的发病越来越向着年轻化发展,但针对年轻肺部结节患者群体的研究不多,年轻患者的肺部结节误诊率较高,本研究通过分析年轻肺结节患者群体的一般临床特点、影像学表现及肿瘤标志物等方面情况,建立预测结节良恶性的预测模型,为临床实践中对年轻肺部结节患者的良恶性诊断提供辅助与建议。方法:选取2016年1月-2020年12月至中国医科大学附属第一医院胸外科行肺部手术治疗的年龄小于45周岁的患者,收集这
背景:溃疡性结肠炎(Ulcerative colitis,UC)伴有多种肠外表现(extraintestinal manifestation,EIM),EIM对UC的诊断和治疗的选择有重要意义。目的:回顾性分析UC患者伴EIM的发生率及疾病类型,分析各EIM发生的相关危险因素。方法:回顾性分析2015年1月—2020年1月中国医科大学附属盛京医院第一消化内科住院的UC患者的临床资料,统计UC患者伴
所谓山水画意象,是指画家将主观情感、思想、想象等赋予自然山水后而创造出的一种艺术形象,强调意境内涵对具象表现的引领作用。无论是表现对象还是表现手法,中国传统山水画与园林景观都有异曲同工之处。就表现对象而言,传统山水画与园林景观都以自然山水为参照,不同的是,画作是平面艺术,线条、墨韵、形状等要素呈现动感,多以宏大格局展现山水壮丽,其特点是重在写意;园林是空间艺术,廊台楼阁、花木水榭、假山幽径等
期刊
目的:了解正常体重、超重及肥胖老年COPD患者肺功能、血气离子分析、免疫功能及生活质量的差异,以评价BMI对COPD预后的影响。方法:收集笔者所在医院2018年9月至2019年8月呼吸科住院治疗的急性加重期COPD患者125例,其中男性84例,女性41例,年龄60-87岁。采用国际标准的方法和仪器测量身高及体质量,按照中国肥胖问题工作组(WGOC)推荐的中国成年人BMI分类标准把患者分为3组:正常