基于基因表达谱和miRNA表达谱的癌症分类集成预测方法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:tpsundl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着发病率和死亡率的持续增加,癌症已成为人类死亡的首要因素。早期发现和治疗癌症有助于大幅提高癌症治愈率、降低死亡率,精准的癌症分类预测是早期发现和治疗癌症的重要手段之一。然而,传统的基于形态学基础上的癌症诊断技术具有极大的主观性,往往不能在早期发现癌变现象而导致大量漏诊、误诊。随着微阵列技术的快速发展,人们可以通过表达谱数据,挖掘出在正常样本和癌症样本中存在显著差异的特征基因、miRNA,构建合理的分类学习模型,来对癌症样本进行分类预测,该项工作涉及人类生命健康,具有极其重大的意义。在癌症分类预测领域,本文首次提出基于基因表达谱和miRNA表达谱的癌症分类集成预测方法。首先将同一样本的基因表达谱数据和miRNA表达谱数据进行融合,获取更加全面的分类信息,得到融合表达谱数据;然后通过混合特征选择算法,按照不同层级、不同尺度对特征进行提取,依次去除多余和冗余特征,实现特征选择;利用多采样多算法预测模型对训练数据集和学习算法进行选择,优选出分类效果最好的模型作为最终预测模型;最终利用独立留出的测试集对所选出的预测模型进行评价,通过十折交叉验证评估模型的分类性能。数据集、特征选择、预测模型三个层面的多类多态信息集成构成了本文集成预测方法的总体框架。对TCGA数据库中乳腺癌、肺腺癌、肺鳞癌进行分类预测,在仅提取10个融合表达谱特征的情况下,通过10折交叉验证,依次实现了 99.23%、99.43%、99.61%的分类准确率。实验结果表明,利用融合表达谱数据较仅使用单一数据分类效果提升明显,多采样多算法预测模型能有效选出最优模型提高分类预测准确率。同时还发现,通过10折交叉验证,每次选出的特征子集都不同,但有些特征多次出现,这些特征的表达异常极有可能致癌;另外最终选出的融合表达谱子集中,基因和miRNA所占比例大致相同,有理由相信miRNA在生物发育的过程中,有着不亚于基因的重要作用。
其他文献
本文是一篇有关商标规定中条件句与被动句翻译策略研究的实践报告,材料来源于《爱尔兰1963年商标规定》,该商标规定包含不予注册事项、初步审定与驳回通知申请、收到注册商标
[目的]本实验通过对已发生癌变的成人先天性胆管扩张症与未发生癌变的成人先天性胆管扩张症的相关临床资料对比,探讨血清CA125、CA19-9、CA15-3、年龄、病程在成人先天性胆管
Y公司(北京易安睿龙科技有限公司)隶属于企业级移动安全行业,该行业是新兴行业,聚焦在该行业的公司绝大多数是科技型初创公司。在充满机会和风险的新兴行业里创业,既要适应剧
2017年3月15日至3月18日,第38届中日青年亲善活动在广州举行。笔者担任了此次活动的志愿者,并负责部分交替传译工作。本报告就是以此次口译实践为材料撰写而成的。在本报告中
本篇翻译报告选取了《十八年前的日记》和《我轻叹“哀号”时》这两篇随笔进行翻译。这两篇随笔是摘录于五木宽之的《蟑螂之歌》这一随笔集。《十八年前的日记》主要写的是五
随着中国经济形势在国际上的迅速崛起,国人的购买力大幅提升,给旅游酒店市场带来了巨大的发展机遇;与此同时,酒店业巨大的市场发展潜力吸引了大批的国际连锁品牌酒店涌入中国
近年来,随着突发性事件频发,给我国带来的损失和影响也在进一步的扩大,很大程度上威胁了社会及国家稳定,因此社会各方面越来越重视突发事件的应急管理措施。本文结合了我国抢
作为互联网金融的典型模式之一,P2P网络借贷最早出现在英国。相较于传统金融信贷,P2P网贷行业由于具有进入门槛低、放贷速度快的特点,在国内得到迅速发展。但在国内P2P网络借
目的:通过人工耳蜗术后MSCT扫描及三维重建,对人工耳蜗植入术后电极进行形态学评估,探讨电极角度植入深度的影响因素、电极-蜗轴间距离与临床调机参数听反应阈值(THR)的相关
资本市场的健康发展,对于企业投融资,投资者资本保值增值,国民经济平稳运行具有重大意义。信息不对称降低了资本市场效率,阻碍了资本市场作用的发挥,是各国资本市场监管者着