基于基因表达谱和DNA甲基化的癌症分类预测

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wohaishixinyonghu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症的分类预测是医学的一个主要研究课题。越早发现癌症,治愈的机率就越大,越晚发现癌症,治愈的机率就越低。及早发现癌症至关重要。基于信息学的癌症分类预测在克服癌症诊断形态学、影像学方法存在的诸多缺陷、对癌症患者实现早期准确诊断方面具有重大研究意义和实用价值。在基于信息学的癌症分类预测中,目前研究癌症分类预测主要是基于基因表达谱数据。由于TCGA数据库癌症种类丰富,样本量大,不仅提供了容易和不受访问限制的基因表达谱数据,还提供了很多其他OMICS技术的数据,因此本文提出基于基因表达谱和DNA甲基化的癌症分类预测模型。我们推测甲基化和基因表达数据的结合可能会改变分类结果,得到重要的特征。因为所得模型不仅会反映转录组的差异,还会反映表观遗传水平的差异。由于TCGA数据库提供的基因表达谱和DNA甲基化数据具有高维度,小样本,高噪音,正常样本少等特点,本文首先使用SMOTE方法使正常样本数和癌症样本数达到平衡,然后采用十折交叉验证,每次对训练集使用最小冗余最大相关性(MRMR)方法做特征选择,利用SVM训练得到分类模型,最后预测得到分类结果。本文基于基因表达谱和DNA甲基化,通过实验和对比研究探索数据集的融合、不平衡问题的处理、分类模型构建。对TCGA乳腺癌的基因表达谱和DNA甲基化数据进行分类预测研究,实验一结果验证了对极不平衡的数据集直接构建分类器,会导致分类预测结果为100%的过拟合或0%的欠拟合。实验三为本文所提方法,结果显示了使用10个特征就可以使各项评估指标达到98%以上的分类预测结果。
其他文献
目的评价营养干预对妊高征的预防效果。方法将400例<12孕周的孕妇随机分成实验组和对照组。对照组进行常规的孕期监护和保健措施;实验组在常规孕期监护和保健措施基础上实施
<正>苏教版的教材中安排了许多"阅读材料",这是新教材的一大特点,是以往教材中所没有的.如何用好这些材料呢?笔者认为,教师不应当视而不见,而应当对这些材料进行认真解读,认
目的探讨血管内超声成像(IVUS)在冠状动脉内支架植入术中的作用。方法用IVUS对44例行冠状动脉内支架植入治疗的患者进行评价,测量支架扩张前、扩张后和高压球囊再次扩张后的
构建能够概括国际货币作为储备货币、计价货币、投融资货币应用状况的货币国际地位综合评价指标体系,基于主成分综合评价分析法,依照欧元相对地位变动趋势的不同,将1999 Q1至
2016年6月14-17日,全亚洲焊接领域最具影响力的专业展会——北京&#183;埃森焊接与切割展览会在京举行。W1展馆1788展位的德国焊界领头羊克鲁斯(CLOOS)展示了全面满足不同要求的
烟雾检测可为早期火警提供重要的线索。基于计算机视觉的烟雾检测技术比基于传感器的检测技术应用范围更广泛,成为了火灾检测与预警领域中一个重要的研究方向。其中单图烟雾
我国期货市场监管领域存在的主要问题是政府多头管理,对市场的行政性干预过多,政府和交易所等自律组织之间监管权分配不合理,自律组织缺乏相对独立性,自律监管发挥作用的空间
《边城》以命定悲剧的形式表现了湘西人独有的生命范式,从中透射出悲观主义和宿命论的色彩。然而,作者的爱国主义精神,以人性改造国民的理想,又使得作品贯穿着人本主义的精神
从十九大提出乡村振兴的总体战略目标及实现路径,到近日中央一号文件指出开拓投融资渠道,强化乡村振兴投入保障,金融支持乡村振兴的策略、方式、途径越来越清晰。本周即将召开的
报纸
在论述木素分子结构的基础上,对木素胺类沥青乳化剂分子结构进行了深入的分析研究,推断出了木素胺的分子结构式,并对该类化合物命名法提出了建议。 On the basis of discussing