论文部分内容阅读
结直肠癌是最常见的恶性肿瘤之一,2007年全球结直肠癌新发病例数达近120万,63万人死于结直肠癌,结直肠癌死亡病例占所有癌症的8%。结直肠癌转移是结直肠癌患者最主要的死因。结直肠癌在早期阶段相对容易治愈,到晚期阶段(发生远处转移)则往往预后较差。无侵袭转移的结直肠患者的5年生存率可高达90%,有局部转移的结直肠癌患者的5年生存率有68%,而带有远处转移的结直肠癌患者的5年生存率很低,仅有11%。据估计,大约60%的结直肠癌患者最终会发生转移。结直肠癌的转移,作为结直肠癌发生发展的后期过程,是一个复杂的、多步骤的生物学过程,目前开展的系统研究较少,机理尚不完全明了。在结直肠癌转移过程中需要多个原癌基因和抑癌基因的参与。识别这些基因,有助于建立新的诊断方法,确定正确的术后治疗方案,开发靶向治疗药物和提高对患者预后的判断能力。染色体异常通常被认为是癌细胞的一个重要特征,接近90%的肿瘤被观察到不同类型的染色体异常现象。当前,各实验室和公共数据库已积累了大量的染色体变异数据,使得数学建模成为可能。本文通过系统的回顾,总结了几个实际应用的数学模型:树模型、贝叶斯网络模型、多元分析模型。并对这几个模型的优缺点进行了相互的比较,阐述了数学模型在肿瘤发生发展分子机制研究中的原理,方法和应用。总的来说,以上模型有不同的数学背景,它们有各自的优势和缺陷,在这种情况下,我们可以通过整合这些模型来获得对肿瘤的发生发展分子机制的进一步了解。通过这些模型的建立,将深化我们对于肿瘤发病机理的生物学认识,可以为我们后续的分子生物学实验提供新的线索。为了解释结直肠癌发生发展的分子机制,1988年,Vogelstein等人提出了一个经典的线性模型,该模型得到了学术界的广泛认可。然而,最近的研究表明了结直肠癌的肿瘤遗传异质性,挑战了经典的线性模型。结直肠癌的发生发展并非线性这么简单,可能是一个多途径非线性的过程。有鉴于此,Desper等人设计了肿瘤发病机制的树模型,该模型旨在刻画肿瘤的异质性,界定肿瘤的染色体异常模式,确定染色体畸变之间的关联性。在本文的研究中,我们从9篇公开的文献中收集了244例比较基因组杂交技术(CGH)数据,构建了结直肠癌发病机制的树模型。识别了6个最常见的结直肠癌染色体位点扩增区域,包括7p(37.0%),7q11-32(34.8%),8q(48.3%),13q(49.1%),20p(36.1%)和20q(50.4%)等;9个最重要的结直肠癌染色体位点缺失区域,包括1p13-36(30.9%),4p15(24.3%),4q33-34(24.3%),8p12-23(50.9%),15q13-14(23.5%),15q24-25(24.3%),17p(34.8%),18p(36.5%)和18q(61.7%)等。通过对分支树和距离树的分析,发现散发性结直肠癌可被区分为两个亚型:个亚型以+20q事件为标志,另一个以-8p12-23事件为标志。构建了基于样本的分类树,发现结直肠癌样本可被分为-8p12-23事件和+20q事件标志的子树,验证了这一结论。结合相关的临床资料,对145例结直肠癌原发灶和85例转移灶样本中的以上15重要染色体改变位点进行了统计学分析。将该结果与树模型对照,提出了包括(-18q,-18p),(-8p12-23,-4p15,-4q33-34),(+20q,+20p),(+20q,+7p,+7q11-32)和+8q等五个分子事件子集有可能组成结直肠癌发生发展的转移通路。基于15个重要染色体改变位点的分布模式,对结直肠癌原发灶和转移灶样本进行分类,用特征消减算法,得到-8p12-23和+20q是区分原发灶和转移灶样本的最重要事件。对-8p12-23和+20q事件在原发灶和转移灶样本的分布进一步分析,发现92.9%(79/85)的结直肠癌转移灶样本发生-8p12-23或+20q事件,提示-8p12-23和+20q是结直肠癌转移的可能标志物。大量的研究表明,采用基因表达谱可有效地对各类肿瘤进行分类,对于肿瘤的诊断和预后有重要意义。基因选择是基于基因芯片数据分类中的关键技术。Guyon等人提出了支持向量机递归基因消除算法(support vector machine recursive feature elimination, SVM-RFE)。 SVM-RFE基因选择算法近年来吸引了众多的研究者。在本文的研究中,我们结合t检验统计量,提出了一种新的基于SVM-RFE的基因选择算法(support vector machine and t statistics recursive feature elimination, SVM-T-RFE)。在5个公开的基因芯片数据集中,比较了SVM-T-RFE和SVM-RFE算法的性能。在结直肠癌,淋巴瘤和前列腺癌数据集中,SVM-T-RFE算法与SVM-RFE算法预测精度相同(均为100%),但SVM-T-RFE算法获得的最小基因集更小,其中结直肠癌数据集(n=5vs n=9),淋巴瘤数据集(n=3vs n=5)和前列腺癌数据集(n=5vs n=6)。在白血病和髓母细胞瘤数据集中,由于SVM-RFE算法取得了最高预测精度(均为100%),且最小基因集基因数目已经很少,其中髓母细胞瘤(n=2),白血病(n=3),给另外算法留出的提高空间很小,SVM-T-RFE算法取得的预测精度相同(均为100%),最小基因数量相同。从GEO网站获取了55例结直肠癌原发灶早期样本(病理分期:0或1,n=55,组1),56例结直肠癌原发灶晚期样本(病理分期:4,n=56,组2),以及34例结直肠癌转移灶样本(组3)。所有样本的表达谱数据采用HG-U133Plus2.0芯片(Affymetrix公司)检测获得,包含54,675条探针值。为了挖掘结直肠癌转移相关基因,我们对结直肠癌原发灶早期样本和晚期样本分类,组1和组2样本合并为PRI数据集。同样,对结直肠癌原发灶晚期样本和转移灶样本进行分类,组2和组3样本合并为META数据集。基因选择算法输出有序基因集,该基因集中的基因排序得分由高至低。选择200个排序得分最高的探针作为基因子集。依次将200个探针减为1,并用留一交叉验证法评估分类器的性能。在PRI数据集,SVM-RFE算法得到PRI-GS-1基因子集,PRI-GS-1基因子集采用最少12个探针获得100%的预测精度。SVM-T-RFE算法得到PRI-GS-2基因子集,PRI-GS-2基因子集采用最少10个探针获得100%的预测精度。在META数据集中,SVM-RFE算法得到META-GS-1基因子集,该子集采用10个探针得到100%的预测精度,SVM-T-RFE算法得到META-GS-2基因子集,该基因子集采用6个探针得到100%的预测精度。就分类表现而言,SVM-T-RFE算法优于SVM-RFE算法。PRI-GS-1基因子集包含20个表达差异显著探针(P<0.05),而PRI-GS-2基因子集包含132个表达差异显著探针。META-GS-1基因子集包含15个表达差异显著探针(P<0.05),而META-GS-2基因子集包含29个表达差异显著探针。相比SVM-RFE算法,SVM-T-RFE算法能挖掘更多的表达差异显著基因。下载Jorissen等人研究中发表的基因表达谱数据。该数据集包含364个结直肠癌样本,其中86例Dukes A期,94例Dukes B期,91例Dukes C期和93例DukesD期。样本均采用HG-U133Plus2.0芯片(Affymetrix公司)检测,包含54,675条探针值。对Dukes A和Dukes D样本分类,SVM-T-RFE算法采用16个探针获得100%预测精度,少于SVM-RFE算法的21个探针。采用SVM-T-RFE算法获得的16个探针训练模型,对Dukes B期样本分类,将样本分为预后好(stage A-like)和预后差(stage D-like)。通过Kaplan-Meier生存分析,发现stage A-like的病人生存预期好于stage D-like病人(log-rank P=.019)。证实了16条探针与Dukes B期病人的预后相关。总之,SVM-T-RFE算法优于现有的SVM-RFE算法:首先,使用同样数量或更小数量的基因,获得了同等的预测准确度。其次,在选择的基因子集中,有更多的差异表达基因。通过我们的实验,发现基因芯片技术具有很强的分类预测能力。在选择的基因子集中,部分基因已知与结直肠癌发生发展或肿瘤转移相关,另外一些基因则需要进一步的实验证实。近年来由于分子生物学实验技术突飞猛进的发展,产生了包括基因组、转录组和蛋白质组各种检测平台得到的大量数据,以往的研究往往只是局限于来自某个平台的某组数据,很少将各种平台数据进行整合研究。DNA拷贝数的变化会对原癌基因和抑癌基因产生影响。普遍认为,染色体扩增区域存在原癌基因,而抑癌基因很可能位于染色体的缺失片段。在15个重要染色体变异位点,结合基因芯片数据,采取集成策略挖掘结直肠癌转移相关基因。在PRI数据集中,发现基因DNA拷贝数的增加或缺失对表达值的上调或下调有着直接的影响。在PRI数据集中,获得重叠基因集的探针161条,应用SVM-T-RFE基因选择算法选择特征基因,得到了最小基因数量(n=14)且分类准确度最高(100%)的最小基因集。在META数据集中,重叠基因集含有探针70条,应用SVM-T-RFE算法选择特征基因,得到了最小基因数量(n=14)且分类准确度最高(100%)的最小基因集。研究显示,整合分析策略是挖掘肿瘤相关基因的有效策略。通过上述的研究,得出以下结论:1.采用244例比较基因组杂交技术数据,构建了结直肠癌发病机制的树模型。识别了15个最常见的结直肠癌染色体变异位点。散发性结直肠癌可被区分为两个亚型:一个亚型由+20q事件标志,另一个由-8p12-23事件标志。2.-8p12-23或+20q是结直肠癌转移的标志物。包括(-18q,-18p),(-8p12-23,-4p15,-4q33-34),(+20q,+20p),(+20q,+7p,+7q11-32)和+8q等五个分子事件子集有可能组成结直肠癌发生发展的转移通路。3.提出了SVM-T-RFE算法,该算法优于SVM-RFE算法。使用同样数量或更小数量的基因,获得了同等的预测准确度,在选择的基因子集中,有更多的差异表达基因。4.基因选择算法所获得的基因子集与结直肠癌转移相关。结直肠癌转移涉及多个生物学过程,需要多个原癌基因和抑癌基因的参与。5.采取集成分析方法获得的基因子集与结直肠癌转移相关。