基于随机森林变量重要性评分的变量筛选方法及其在肿瘤分型诊断中的应用

来源 :山西医科大学 | 被引量 : 0次 | 上传用户:zzh787
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:探究基于随机森林的六种变量筛选方法(RFE-RF、biosigner、Boruta、altmann、vita、r2vim)对高维数据进行变量筛选时的性能表现,并选择适当方法用于弥漫大B细胞淋巴瘤(diffuse large B cell lymphoma,DLBCL)基因分型诊断。方法:通过模拟研究评价基于随机森林的六种变量筛选方法(RFE-RF、biosigner、Boruta、altmann、vita、r2vim)在高维数据中进行变量筛选时的灵敏度、特异度、约登指数、阳性预测值、阴性预测值、所筛得变量总数、预测准确度、稳定性、计算时间。通过检索高通量基因表达数据库(Gene Expression Omnibus,GEO),获取DLBCL分型相关基因数据集,选择模拟研究中呈现较高灵敏度的方法应用于数据集初步筛选,选择阳性预测值较高的方法应用于分型诊断模型的最终构建,从而获得与弥漫大B细胞淋巴瘤分型相关的基因,同时利用该基因实现对该疾病的有效分型诊断。结果:模拟研究显示,基于随机森林的六种变量筛选方法中,vita方法表现出较高的灵敏度,biosigner方法呈现出较高的阳性预测值。通过检索GEO数据库,共获得9个与DLBCL分型相关的数据集,经纳排标准筛选后,共包含1362例研究对象,将该9个数据集处理批次效应后合并为一个DLBCL分型相关数据集。依次将上述两种方法用于该实例研究。其中,经vita方法筛选共获得1019个差异表达基因,而后经biosigner方法筛选共获得77个差异表达基因,包含5个lnc RNA和72个m RNA,所建分型诊断模型的预测准确度为0.910。结论:vita和biosigner方法分别因其较高的灵敏度和阳性预测值可用于变量筛选的初步处理和最终筛选阶段。DLBCL实例研究结果显示,经上述两种方法筛选变量后所建模型能有效实现DLBCL分型诊断,为DLBCL不同亚型患者的管理和治疗提供依据。
其他文献
目的:1、探究胃癌患者血浆外泌体PD-L1(ePD-L1)是否与疾病发展程度相关。2、探究胃癌患者血浆ePD-L1是否能够抑制T细胞活化。方法:1、使用外泌体纯化试剂纯化胃癌患者血浆中的外泌体。2、利用纳米粒子跟踪分析(NTA)技术和NanoSight NS300颗粒跟踪分析仪分析囊泡的数量以及大小;电镜观察外泌体超微结构;共聚焦荧光显微镜观察外泌体颗粒上特异标记的CD63和PD-L1抗原。3、利
背景:主要组织相容性复合体Ⅰ(major histocompatibility complex-Ⅰ,MHC-Ⅰ)可将肿瘤相关抗原呈递至CD8+T细胞,诱导CD8+T细胞杀伤肿瘤细胞。研究表明,肿瘤细胞表面MHC-Ⅰ表达下调是引起肿瘤免疫逃逸的重要机制之一。因此影响MHC-Ⅰ组装和表达的关键蛋白,其异常表达有可能导致肿瘤免疫逃逸的发生。钙连接蛋白(Calnexin,CANX)在抗原提呈过程中作为伴侣
目的:食管癌是全球范围内常见的消化道恶性肿瘤,而中国是食管癌高发国家,其发病率和死亡率居高不下,约占全球的一半;在国内,山西又是食管癌高发地区。碳纳米点(碳点)因其具有突出的光致发光性能,良好的生物相容性及表面富含官能团易功能化等特点,备受科研工作者关注,已被广泛应用到了传感、生物成像和药物递送等各个领域。针对临床上食管癌治疗手段单一且预后差等问题,本文充分利用碳点的优点负载化疗药物、光敏剂以及靶
目的:1.探究IQGAP1(IQ motif containing GTPase activating protein 1)对食管鳞癌细胞迁移和侵袭的影响。2.探究IQGAP1对MMP-2基因表达和活性的影响。3.探究IQGAP1影响食管鳞癌细胞迁移和侵袭以及MMP-2基因表达和活性的分子机制。方法:1.将GFP-IQGAP1质粒和对照组空载质粒转染至EC9706细胞中,将IQGAP1短发卡RNA
目的:检测食管胃结合部腺癌(adenocarcinoma of the esophagogastric junction,AEG)患者基因突变情况,分析内披蛋白(Involucrin,IVL)突变对肿瘤细胞生物学功能的影响。方法:1.山西地区AEG患者全外显子组测序和ivl突变分析收集山西省肿瘤医院普通外科手术切除的22例山西地区AEG患者的癌组织和癌旁组织,运用二代测序技术进行全外显子组测序,分
目的:应用生物信息学方法分析纤维蛋白原样蛋白2(Fibrinogen-like Protein 2,FGL2)与胶质瘤的关系,探讨FGL2在胶质瘤中的潜在预后价值和免疫治疗的靶向性。方法:使用TCGA、GETx和GEO数据库分析FGL2在胶质瘤组织中的转录水平,通过TCGA数据库中低级别胶质瘤和胶质母细胞瘤(Glioblastoma,GBM)患者的临床资料,分析FGL2的表达与临床病理特征的关系。
目的:探究信号转导和转录激活因子STAT5A及STAT5B在T淋巴母细胞淋巴瘤(T-cell lymphoblastic lymphoma,T-LBL)中的表达,从m RNA和蛋白水平分析STAT5A及STAT5B与疾病的发生、发展以及生存预后之间的关系,为T淋巴母细胞淋巴瘤的临床诊断和治疗提供新的潜在靶点。方法:(1)采用免疫组织化学(immunohistochemistry,IHC)的方法检测
背景与目的:乳腺癌是全球女性癌症相关死亡的第二大原因,近年发病率持续上升。转移和复发是乳腺癌患者死亡的主要原因,严重危害患者生命健康。转移性乳腺癌易复发、预后差,生存期仅8个月至3年。因此,探寻转移相关的关键分子对提高转移性乳腺癌患者的生存率具有重要意义。非肌肉肌球蛋白ⅡA(Non-muscle myosin ⅡA,NMⅡA)是细胞的肌动蛋白骨架之一,与细胞的迁移、收缩以及胞质分裂等密切相关。近年
目的:利用体内噬菌体展示技术筛选与人非小细胞肺癌NCI-H1299细胞结合的小分子多肽并在体内外鉴定其结合特异性及靶向性。方法:1.将人非小细胞肺癌NCI-H1299细胞接种于裸鼠体内,制备荷瘤裸鼠模型,用噬菌体展示随机环七肽库对荷瘤裸鼠进行3轮体内筛选。免疫组织化学法鉴定噬菌体在肿瘤组织及正常对照组织的分布情况,酶联免疫吸附实验(ELISA)检测噬菌体克隆对NCI-H1299细胞的结合亲和力,鉴
目的:、肺腺癌(lung adenocarcinoma,LUAD)占肺癌的40%以上,是临床最难治愈的肿瘤,鉴定在LUAD发生发展中起作用的蛋白质将有助于阐明发病机理并提供新的预后生物标志物。课题组前期构建了高表达ANKRD49的慢病毒载体LV5-ANKRD49,将其感染H1299细胞后,发现其不参与调节细胞增殖,但是可以促进H1299细胞的迁移和侵袭。为研究ANKRD49在H1299细胞迁移和侵