论文部分内容阅读
在某一特定类型的人类正常组织样本内,基因表达的相对大小(秩次)关系存在广泛的稳定性,而在其相应的癌症组织样本中受到了广泛的扰动。基于这一生物学现象,我们已提出了一个筛选个体化差异表达基因的方法(命名为RankComp),通过与以往研究累积的正常组织样本中预先筛选到的高度稳定基因对比较,在每一个疾病样本中判断基因表达秩次关系发生反转的基因对,并据此识别在该疾病样本中(相对其癌变前的正常状态)的差异表达基因。然而,目前的RankComp算法是基于在正常样本中预先设定的一个稳定阈值(如至少在99%的正常样本中稳定)筛选的高度稳定基因对,稳定对的筛选缺乏统计控制,个体化差异基因识别的检验效能也较低。因此,有必要进一步评价是否可以基于统计控制的显著稳定基因对,采用RankComp算法识别个体化差异表达基因。此外,由于不同的基因表达谱检测平台的探针设计原理不同,基因表达秩次关系在不同平台间可能存在一定的不确定性。因此,需进一步评价基因表达秩次关系的跨平台效能。通过分析由四种常用的基因表达谱检测平台(Affymetrix,Illumina,Agilent芯片平台和一个二代测序平台)检测的461个正常肺组织和243个正常结直肠组织样本数据,我们发现在某一特定类型的正常组织样本中存在数千万个具有跨平台能力的显著稳定的基因对,并且仅需较小的正常样本量(约20个样本)就可筛选到约80%的显著稳定基因对。以肺组织样本为例,基于上述四个平台在正常肺组织中共同筛选到的显著稳定基因对(FDR<0.01),在分别含有25、57和58对配对的肺癌和癌旁正常组织样本的数据集中,RankComp算法在每个癌样本中平均筛选到1184,1335和1116个差异基因;采用每个癌样本与其配对的癌旁正常组织样本间的基因的改变方向为金标准,评价在每个癌样本中筛选的差异表达基因,其平均的精确性分别为96.51%,95.95%和94.78%。此外,对在每个癌样本中发现的差异表达基因进行个体化通路分析,结果揭示了肺癌的共同的和亚型特异的功能机制。在结直肠组织样本中,我们也得到了类似的结果。综上,对于某一特定类型的人类正常组织,基因秩次关系存在广泛的稳定性,并且仅需约20个正常样本就可筛选到大部分的显著稳定基因对。此外,显著稳定基因对(尤其表达水平具有较大差异的基因对)具有一定的跨平台性质。基于某一特定正常组织筛选到的具有跨平台性质的显著稳定基因对,对任一被其中某一平台检测的癌症样本,我们可准确地筛选到这一癌症样本相对其癌变前的正常状态的差异表达基因和通路,并可用于进一步解析癌症的异质性。