论文部分内容阅读
近年来,随着发病率和死亡率的持续增加,癌症已成为人类死亡的首要因素。早期发现和治疗癌症有助于大幅提高癌症治愈率、降低死亡率,精准的癌症分类预测是早期发现和治疗癌症的重要手段之一。然而,传统的基于形态学基础上的癌症诊断技术具有极大的主观性,往往不能在早期发现癌变现象而导致大量漏诊、误诊。随着微阵列技术的快速发展,人们可以通过表达谱数据,挖掘出在正常样本和癌症样本中存在显著差异的特征基因、miRNA,构建合理的分类学习模型,来对癌症样本进行分类预测,该项工作涉及人类生命健康,具有极其重大的意义。在癌症分类预测领域,本文首次提出基于基因表达谱和miRNA表达谱的癌症分类集成预测方法。首先将同一样本的基因表达谱数据和miRNA表达谱数据进行融合,获取更加全面的分类信息,得到融合表达谱数据;然后通过混合特征选择算法,按照不同层级、不同尺度对特征进行提取,依次去除多余和冗余特征,实现特征选择;利用多采样多算法预测模型对训练数据集和学习算法进行选择,优选出分类效果最好的模型作为最终预测模型;最终利用独立留出的测试集对所选出的预测模型进行评价,通过十折交叉验证评估模型的分类性能。数据集、特征选择、预测模型三个层面的多类多态信息集成构成了本文集成预测方法的总体框架。对TCGA数据库中乳腺癌、肺腺癌、肺鳞癌进行分类预测,在仅提取10个融合表达谱特征的情况下,通过10折交叉验证,依次实现了 99.23%、99.43%、99.61%的分类准确率。实验结果表明,利用融合表达谱数据较仅使用单一数据分类效果提升明显,多采样多算法预测模型能有效选出最优模型提高分类预测准确率。同时还发现,通过10折交叉验证,每次选出的特征子集都不同,但有些特征多次出现,这些特征的表达异常极有可能致癌;另外最终选出的融合表达谱子集中,基因和miRNA所占比例大致相同,有理由相信miRNA在生物发育的过程中,有着不亚于基因的重要作用。