论文部分内容阅读
随着全基因组基因表达芯片的广泛应用,大量基于基因表达谱开发的分子标志为癌症的预后预测和早期诊断提供了重要的辅助手段。然而,由于基因芯片检测的批次效应和癌症患者的异质性等原因,目前基于基因表达谱得到的分子标志的预测能力在跨实验室的独立数据中往往有大幅的下降。针对这一问题,本论文提出了一种具有一定普适性的基于基因表达秩序关系的预测算法。由于乳腺癌化疗预后及肝癌癌前病变的数据较为丰富,本论文将该算法分别应用于乳腺癌预后的预测及肝癌的早期诊断。本论文主要包括以下四部分内容:癌症标志稳健性的评价。对同一种癌症类型的研究,不同的实验室运用基因芯片技术得到的标志通常很不一致,且癌症标志在不同实验室数据中分类性能也不够稳健。对于多数工作中常规作为诊断或预后分子标志的最显著差异表达的基因标志,我们通过一定的合理生物学假设(或分子模型)从功能联系和分类性能两个层面对其进行了稳健性评价。结果显示,最显著差异表达的基因倾向于显著共表达且在蛋白质互作网络上紧密连通,并且通过该功能关系所构建的从最显著差异表达基因出发的癌症条件相关的活性子网在来自不同实验室的数据中有稳健的鉴别癌症与正常样本的能力。乳腺癌化疗反应的预测。对于基于紫衫类和蒽环类的乳腺癌新辅助化疗,病理完全反应(pathological complete response,pCR)的患者有着明显优于癌细胞残留(residue disease,RD)的患者的总体生存率。一些工作报道了基于基因表达谱的pCR预测分类器来指导患者的新辅助化疗,然而现有的pCR分类器在独立验证的稳健性方面仍存在问题。为了建立稳健的pCR分类器,我们提出了一个基于基因表达秩序关系的CTSP(Combinational top scoring pairs)算法。首先,我们提取出基因表达的相对秩次关系在pCR和RD两类患者之间发生了显著逆转的基因对。然后,基于一定的决策规则,我们利用这些基因对的组合构建pCR分类器。该pCR分类器在两套来自不同实验室的独立验证集中的敏感性指标分别为74%和86%,特异性指标分别为71%和68%,明显优于三个已报道的pCR分类器。乳腺癌化疗预后的预测。考虑到pCR的患者的比例不高而少量癌细胞残留的患者也倾向于有良好的预后,作为pCR分类器的补充,我们提出了一个预测乳腺癌化疗预后的分类器。由于患者化疗前内在的雌激素水平、临床分期等与预后相关的风险因素会对化疗后的预后产生一定的影响,本论文通过结合患者化疗前的风险因素和化疗后癌细胞残留程度两方面因素对患者治疗的预后进行预测。首先,按照CTSP算法,我们对化疗后癌细胞的残留程度进行预测。然后,我们将预测的癌细胞残留程度与临床指标相结合,通过COX回归分析得到了对单个个体化疗后生存进行评价的风险概率指标。结果显示该风险概率指标可以有效地将个体的化疗后生存情况区分为预后良好和预后不理想的两组,这两组患者的三年生存率(无远端复发的生存时间在三年以上的患者在所有患者中所占的比例)的差值为17%,其整体生存曲线间也存在着显著的差别(log-rank检验,p=0.001)。肝癌高危人群的早期诊断。对于在肝癌(hepatocellular carcinoma,HCC)的早期检测中放射成像技术无法确定的结节,通常需要通过活检取样来进行组织病理学鉴定。然而,一些早期肝癌组织中所呈现的病理改变微小难辨,活检取样时也经常会出现未取到癌组织而漏检的情况。针对这种肝癌早期诊断的困难,我们提出了利用癌旁组织的基因表达的秩序关系来鉴别早期肝癌及癌前病变的方法。首先,我们找出在伴肝硬化肝癌患者的肝硬化组织(cirrhosis tissue in patients with HCC,wHCC)和非肝癌肝硬化患者的肝硬化组织(cirrhosis tissue in patients without HCC,woHCC)这两类样本间基因表达值的相对秩序发生了逆转的基因对。然后,我们借用大样本的肝癌组织表达谱数据筛选出在HCC及wHCC中表达的相对秩序一致的基因对,再基于这些基因对发展能将HCC、wHCC与woHCC进行鉴别的分类器。结果显示,该分类器对来自不同平台、不同实验室的验证集都有稳健的分类能力,可以用于早期肝癌与癌前病变的辅助鉴别诊断。综上,本论文提出了CTSP算法从两方面来解决基因表达分子标志在跨实验室应用中缺乏稳健性的问题:一方面,以相对表达大小(秩次)关系取代具体表达值作为特征具有一定的稳健性,由于每个样本中的基因间秩序关系是不受样本间的检测条件差异或线性的片间标准化影响的。另一方面,以大样本量的对照组(如正常、化疗不敏感)的样本中稳定存在的基因表达秩序关系为基准,可以识别出仅在观察组(如癌症、化疗敏感)中的部分样本中发生的基因表达秩序关系的变化,这为复杂疾病条件下具有高生物学变异的应用(如化疗反应预测等)提供了新的思路。