论文部分内容阅读
在生物信息学领域中,由于许多疾病的病理不明,使用传统的诊断方式无法准确判断疾病类型,所以借助分子生物学数据和机器学习进行辅助的诊断方式近年来开始得到关注。癌症是一种基因疾病,有超过100种类型,通常由它们所处的组织或器官来命名。对于癌症的诊断和治疗而言,准确识别癌症类型是十分必要的。由于癌症组织和正常组织有着不同的基因表达,基因表达数据可以作为有效的特征源用于癌症分类。由于高通量测序技术的发展,获得全基因组的基因表达数据成为可能。然而,直接使用原始的基因表达谱进行准确的癌症分类仍然很有挑战性,因为基因表达数据有着极高的特征维度和较小的样本数,且存在着大量的噪声和冗余。(1)为了解决上述问题,我们提出了一种新的融合低秩表示和自训练的半监督分类方法(SSC-LRR),它可以利用基因表达数据进行癌症分类。低秩表示(Low Rank Representation,LRR)首先被用于从高维基因表达数据中提取有判别力的特征,然后一种改进的半监督自训练分类(Semi-supervised Self-training Classification,SSC)方法被用于进行癌症分类预测。为了评估SSC-LRR的分类效果,我们在两个不同类型的基准数据集上进行测试,并与四种当前情况下性能最好的方法进行比较。它在癌症分类预测中取得了 89.7%的总体准确率和0.920的泛化相关性,比其它方法中最好的一个分别高出18.9%和24.4%。总而言之,我们的研究展示了一种新的高灵敏度方法,可以从大规模基因表达数据中识别癌症类型。(2)此外,我们在矩阵低秩表示的基础上对数据进行可视化,并提出了一种关键基因选择方法对基因的鉴别能力进行排序,一些基因(RNF-114,HLA-DRB5,USP9Y,PTPN20)被该方法识别为可能的新癌症标志,以用于进一步的临床研究。(3)为了方便其他生物医学研究者的使用,我们基于Flask框架开发了一个网络平台用于提供在线的癌症类别预测服务。