论文部分内容阅读
癌症不是单一类型的疾病,而是存在分子亚型的。其分子的复杂性体现在mRNA、DNA、蛋白质等多层次遗传物质中。仅分析其中一种数据并不能够完整揭示分子亚型的独有特点。
综合分析所有基因组特征,有助于发现其中蕴含的复杂的变异模式。由于癌症亚型往往不为人所知,需要通过聚类技术探索数据的潜在结构。不同类型基因组数据分别聚类的结果可能存在差异。如何获得一致的聚类结果是本文需要解决的问题。
本文使用联合隐变量模型来解决这个问题。联合隐变量模型也称iCluster算法,2009年提出,是一个易于拓展的概率框架,能够综合分析多类型的数据。并产生跨类型一致的结果。本文详细介绍了联合隐变量模型的原理和框架。在包含四个细胞系样本的原发性乳腺癌数据集上证明了联合隐变量模型的有效性。联合隐变量模型使用L1稀疏约束对基因组特征的系数矩阵进行压缩,但L1稀疏约束没有考虑变量的相关性,没有考虑拷贝数变异的分段连续性。本文基于L1稀疏约束的不足提出使用ElasticNet稀疏约束和Fused Lasso稀疏约束解决这些问题,并在乳腺癌数据集上证明了其具有好于L1稀疏约束的聚类效果。
最后本文改进的联合隐变量模型算法分析了原发性乳腺癌和胶质母细胞瘤分子层面的差异,并将原发性乳腺癌分为3类分子亚型,将胶质母细胞瘤样本划分为5类分子亚型。3类乳腺癌分子亚型中发现了公认的ERBB2+分子亚型。胶质母细胞瘤的5类分子亚型与癌症基因组图集(TCGA)计划公布的4类分子亚型有较强的对应关系,但5类分子亚型在生存几率、最初发病年龄和对药物的敏感性方面具有更显著的特点。