论文部分内容阅读
结直肠癌(colorectal cancer,CRC)是最常见的恶性肿瘤之一,致死率高。结肠镜检联合活检样本的病理检查是结直肠癌确诊的金标准。然而,早期癌症患者的病灶小,通常会存在组织活检取样量少和取样位置偏差(癌旁)等问题,导致结直肠癌的漏诊率较高。因此,有必要筛选一个结直肠癌特异的分子标志为结肠镜检提供辅助诊断,提高结直肠癌特别是早期微小病灶患者诊断的准确性。目前,已有研究提出一些结直肠癌的诊断标志,但是其普遍将癌旁正常样本视为正常样本进行分析。然而,许多癌旁组织样本已具有癌症的一些分子特征。因此,我们利用结直肠癌组织及其毗邻癌旁组织共同的分子特征筛选区分结直肠癌(包括癌旁正常)和非癌(包括非癌旁正常和炎症)的诊断标志。此外,对于伴有结直肠癌癌前病变(包括溃疡性结肠炎和腺瘤等)的非癌患者,预测该患者的癌症发生风险是一个有意义的课题,对该患者癌症的预防具有潜在的指导作用。由于存在检测的批次效应,基于转录组定量特征的标志在应用时通常需要先对样本进行标准化处理且难以应用于不同实验室检测的样本,导致其无法对样本进行个体化判断,不适用于临床应用场景。相对于转录组定量特征,我们实验室的前期研究表明基于转录组定性特征(即样本内基因表达水平的相对高低秩序关系)具有对批次效应、RNA的部分降解、微量RNA的扩增偏倚和肿瘤上皮细胞占比变化不敏感等优点。据此,我们已筛选出了高度稳健的基于转录组定性特征的非小细胞肺癌、肝癌以及其它癌型的诊断或预后标志。鉴于上述存在的一些问题以及转录定性特征的独特优势,本课题将主要从以下三个方面展开:1论证转录组定量特征的不确定性首先,选取MAQC(The Micro Array Quality Control)项目中采用两个低通量PCR检测平台(Sta RT-PCR?Assays和Taq Man?Assays)检测的技术重复样本(样本A和样本B),我们证明了基因表达值的定量信息在低通量的检测平台中也存在较大的变异。另外,基于公共数据库中的高通量芯片和测序数据,以支持向量机(Support Vector Machine,SVM)和朴素贝叶斯(Na?ve Bayes)构建的结直肠癌鉴别标志为例,我们系统地证明了基于转录组定量特征的标志在个体化应用时存在较大的不确定性,难以稳健地用于临床实践。2识别基于转录组定性特征的结直肠癌早期诊断标志由于结肠镜检取样位置偏差是结直肠癌误诊的一个重要原因,因此构建的结直肠癌标志应能将这部分样本判断为癌。因此,本课题利用结直肠癌组织及其毗邻癌旁组织共同的分子特征,识别结直肠癌的早期诊断标志,其得到的标志适用于临床上取样位置偏差的样本,降低临床病理诊断的假阴性率。基于训练集样本中共692个结直肠癌样本(包括癌旁正常)和168个非癌样本(非癌旁正常和炎症)的转录组定性特征,我们筛选到了由7个基因对构成的结直肠癌早期诊断标志,其在由不同平台检测的多个数据集的活检和手术切除样本中均得到了验证。对来自公共数据库中的独立验证集数据共977个结直肠癌样本(包括癌症和癌旁正常)和163个非癌样本(包括非癌旁正常和炎症),该标志的敏感性和特异性分别为99.7%和94.5%,其几何均值为97.1%,AUC值为0.9589(95%CI=0.9521-0.9657)。此外,该标志还将我们实验室自测的33个结直肠癌活检样本(Affymetrix平台)和13个具有不同肿瘤上皮细胞占比(40%到100%)的结直肠癌手术切除样本(RNA_seq平台)全部正确地鉴定为癌,进一步证明了我们筛选到的结直肠癌早诊标志的稳健性。3识别基于转录组定性特征的结直肠癌预警标志鉴于从正常结直肠组织到癌的发生是一个渐变的、连续的多步骤过程,以及转录组定性特征的独特优势。我们以结直肠癌组织和完全正常结直肠组织为研究对象,筛选基于转录组定性特征的结直肠癌预警标志,用于预测伴有癌前病变非癌患者的癌症发生风险。然后,在具有不同病程癌前病变(溃疡性结肠炎和腺瘤)的非癌患者样本中,通过计算病程长的炎症或腺瘤样本与癌症转录组特征的相似度打分,分析其是否比病程短的打分显著高来初步验证该预警标志的有效性。对数据集GSE13367中的16个活动性溃疡性结肠炎(UC_active)样本和18个非活动性溃疡性结肠炎(UC_inactive)样本,结果表明在UC_active样本的预警打分(中值为0.5614)比在UC_inactive样本的打分(中值为0.2778)显著高(秩和检验,p=5.9687e-05)。对数据集GSE53306中的UC_active样本和UC_inactive样本以及数据集GSE37364中不同病程的腺瘤样本,我们也取得了相似的结果。上述结果初步证明了我们的标志对伴有癌前病变非癌患者的癌症发生风险具有潜在的预警效能。