基于多分类ROC评价支持向量机与K近邻学习在癌症分类中的应用研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:lanbingxingshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:1、基于多分类ROC评价探讨最大信息系数结合递归特征消除法进行特征选择的效果;2、基于多分类ROC评价支持向量机与K近邻学习模型的分类效果。方法:首先进行数据的收集,在GEO平台上,利用结直肠癌、结直肠肿瘤、结直肠腺瘤、结肠癌、直肠癌等词为关键词进行相应的检索,再利用入选标准和排除标准选择结直肠癌的基因表达数据。计算出单个基因的最大信息系数以系数大于等于0.4817为阈值进行特征选择;其次利用随机森林的5折-交叉验证的递归特征消除法进行特征的选择;然后将前两步选择的特征代入到支持向量机与K近邻学习中进行模型的学习,其中训练集和验证集的比例为7:3。最后利用宏平均法计算多分类ROC曲线下面积。上述数据处理和分析在软件Python 3.7中完成。结果:本研究收集到GEO平台上GSE10714、GSE37364、GSE41657、GSE50114、GSE50115共5个数据集,其中GSE50114与GSE50115为来自同一实验的不同数据集。GSE10714数据集中有癌样本7例,腺瘤样本5例,正常样本3例。GSE37364数据集中有癌样本27例,腺瘤样本29例,正常样本38例。GSE41657数据集中有癌样本25例,腺瘤样本51例,正常样本12例。GSE50114与GSE50115两个数据集共有癌样本9例,腺瘤样本37例,正常样本9例;五个数据集共有相同基因9827个。在特征提取中,经过最大信息系数选择出55个基因,在后续的交叉验证递归特征消除法的特征提取中选择出了51个基因,分别为ACAT1、ADAMDEC1、ADH1C、AHCYL2、AJUBA、APPL2、C1QC、C5orf30、CA2、CASP7、CDH3、CHGA、CHP2、CLDN1、COL1A1、CXCL3、DHRS11、FBLIM1、GDF15、GLA、GLTP、GNA11、GNA13、GTF2IRD1、HPGD、HSD11B2、ISX、MAOA、MMP7、MPEG1、NEBL、NFE2L3、NR3C2、PHF19、PHLDA1、PPAP2A、PXMP2、RNF43、S100A2、SLC29A1、SLCO4A1、SMPDL3A、SORD、SPPL2A、STAP2、STX12、SULT1A1、TNS4、TPD52L2、TSPAN7、UGP2。将特征基因代入线性支持向量机中,利用宏平均法计算出的曲线下面积为0.9710(正常、腺瘤与癌三个类别的曲线下面积分别为0.9857、0.9632和0.9412)。将未经过特征选择的原始数据也代入以线性函数为核函数的支持向量机,利用宏平均法计算出的曲线下面积为0.9627(正常、腺瘤与癌三个类别的曲线下面积分别为0.9823、0.9389和0.9389)。将筛选出的特征基因与未筛选过的基因代入线性函数为核函数的支持向量机利用宏平均法计算出的曲线下面积值具有统计学差异(P<0.05)。将筛选出的特征基因代入到K近邻学习模型中进行分类,利用宏平均法计算出的曲线下面积为0.9555(正常、腺瘤与癌三个类别的曲线下面积分别为0.9895、0.9319和0.8998),将未经过特征选择的原始数据也代入K近邻学习模型中,利用宏平均法计算出的曲线下面积为0.9496(正常、腺瘤与癌三个类别的曲线下面积分别为0.9895、0.9191和0.8773)。将筛选出的特征基因与未筛选过的基因代入到K近邻学习模型利用宏平均法计算出的曲线下面积值具有统计学差异(P<0.05)。将筛选出的特征基因分别代入线性函数为核函数的支持向量机和K近邻学习模型中利用宏平均法计算出的曲线下面积值差异无统计学显著性(P>0.05)。结论:多分类ROC在多分类识别中具有良好的应用前景,最大信息系数结合递归特征消除法进行特征选择的组合能提高机器学习模型的效能,在多分类数据中利用支持向量机和K近邻学习模型进行分类都具有良好的效果。
其他文献
目的:肺癌作为最常见的癌症之一,对我国人群健康造成了极大的威胁。针对肺癌影响因素的研究成为近些年的热点。研究表明,除环境暴露外,遗传因素也可以影响肺癌的发生。而在遗传因素中,较常见的就是单核苷酸多态性。HULC的单核苷酸多态性能够影响肝癌、宫颈癌等多种癌症的发生。但是,现有的研究中未涉及HULC位点多态性与肺癌易感性之间的关系。本次研究对HULC的rs1041279、rs2038540和rs776
目的:后发性白内障是白内障手术后常见的并发症之一,晶状体上皮细胞发生异常增殖、迁移、上皮间质转化是后发性白内障形成的共同细胞学基础。目前后发性白内障主要依赖于激光和二次手术进行治疗。但由于近年来患者对术后视觉质量的要求增高,激光或手术治疗带来的人工晶状体损伤或移位等并发症逐渐得到重视,应用人工晶状体及药物干预后发性白内障的发生是减少后发性白内障的重要方法。阿司匹林是年龄相关性疾病的常用药物,有研究
目的:自噬是一种自我消化的过程,可以满足细胞的新陈代谢,并且其与癌症的发生密切相关。肺鳞癌与肺腺癌占非小细胞肺癌的90%,往往患者在确诊的时候已经是晚期,并且患者预后不良,患者生命和生活质量收到严重影响。本次研究旨在找出与肺鳞癌预后相关的自噬相关lncRNA,用来预测肺鳞癌患者的预后情况。研究方法:从癌症基因组图谱(TCGA)数据库获得551例RNA测序数据和临床信息,通过人类自噬数据库(HADb
肺癌是全世界癌症死亡的主要原因。全基因组关联研究GWAS已经识别45个与肺癌相关的易感性位点,然而这些位点上的单核苷酸多态性SNP只能解释肺癌的部分遗传性。这些关联下潜在的分子机制很大程度上还是未知。目前对肺癌发病机制存在一个普遍认可的科学假设:这些SNPs可能通过调节其临近基因的表达从而发挥作用。本研究的目的是基于已公开发表的肺癌GWAS数据集,包含欧洲人群11348例肺癌和15861对照,与两
目的:肺癌是威胁人类生命安全的恶性肿瘤之一。长链非编码RNA作为靶点和标志物在许多疾病中都发挥着关键作用。研究表明SOX9是参与人类生命过程中的一种重要基因,且能够影响疾病的发生和进展。有关报道指出SOX9基因通过影响机体的生物功能进而影响肺癌的易感性。为进一步探索肺癌发病风险与基因多态性之间的关联,本研究选取SOX9基因上的两个位点(rs1042667和rs1859962)进行实验和研究。方法:
目的:观察性研究表明,儿童肥胖与成人胰腺癌风险呈正相关。但尚不清楚这种关联是否是因果关联。孟德尔随机化是一种被用于评估风险因素与相关结局之间关联的因果关系的方法。两样本孟德尔随机化是孟德尔随机化的扩展,是利用GWAS数据,从两个不同数据库收集基因型与暴露之间以及基因型与结果之间的关联的方法。本研究利用两样本孟德尔随机化方法研究儿童肥胖与成人胰腺癌风险的关联是否是因果关系。方法:本研究使用了两个样本
目的:肺癌是威胁人们健康的主要恶性肿瘤之一。肺癌的发病机制是复杂的,其发生是多种因素作用的结果,包括遗传因素、环境因素、卫生经济条件等。研究发现,lncRNA H19单核苷酸多态性与多种疾病的发生风险有关。H19被认为是作为诊断和治疗的一种有效生物标志物。因此,本研究目的是在中国东北地区汉族人群中,探讨lncRNA H19 rs2839698和rs2071095单核苷酸多态性与肺癌易感性的关系,以
目的:肺癌是当今全人类共同面临最严重的恶性疾病之一,威胁我国居民的健康状况,给患者家庭和社会带来沉重的疾病负担。早期肺癌的预后良好,然而尚无有效的治疗方法治疗晚期肺癌,因此肺癌的早发现早治疗显得非常必要。全基因组关联研究(Genome-wide association study,GWAS)结果显示长链非编码 RNA(long non-coding RNA,lncRNA)遗传变异在癌症发生中起重要
目的:近年来,在女性相关癌症死亡原因中,卵巢肿瘤已成为主要原因之一,其发病率处于不断上升状态。卵巢肿瘤的危险因素很多,包括家族及遗传史、生育及年龄和环境影响等。随着科技的发展和化工产品的大量应用,近年来,内分泌干扰物引起了人们的关注,它们对身体和环境的稳态具有一定的破坏作用和影响。目前,邻苯二甲酸酯类(PAEs)和双酚类(BPs)这两大类物质是备受关注的内分泌干扰物,其被广泛应用于塑料制品的增塑剂
目的:比较纤维蛋白原(Fibrinogen,FIB)与白蛋白(Albumin,ALB)的比率,γ-谷氨酰转肽酶(Gamma-glutamyltransferase,GGT)与血小板(Platelet,PLT)的比率以及甲胎蛋白(Alpha-fetoprotein,AFP)与转氨酶(Alanine aminotransferase,ALT;Aspartate transaminase,AST)的比率