论文部分内容阅读
背景:鉴别两种不同处理条件下或者不同表型之间的差异表达基因(Differentially Expressed Genes,DEGs)是高通量基因表达谱分析的基本任务。先前我们实验室开发了基于样本内相对表达秩序关系(REOs)的Rank Comp算法,能够用于群体和个体水平差异表达基因的识别,具有对批次效应不敏感等优点。Rank Comp算法中采用Fisher精确检验对列联表进行显著性水平计算,评价处理条件或表型与稳定基因对在两组中的分布是否存在显著相关性,然而没有意识到基因对在两组中表达秩序关系是一种配对的实验设计关系,存在检验方法适用错误的问题。方法:本论文对Rank Comp算法进行了改进,采用Mc Nemar-Bowker检验替代Fisher精确检验,开发了Rank Comp V3算法并将该算法推广应用到单细胞转录组差异表达基因的识别中。本论文从多个角度评价Rank Comp V3算法的性能,并探索其应用,包括:(1)使用多种平台测量的Null数据集,评价Rank Comp V3的假阳率,包括基因芯片、转录组测序(RNA-seq)以及单细胞转录组测序(sc RNA-seq)数据;(2)将Rank Comp V3应用于基因芯片和RNA-seq的基准数据集,MAQC和SEQC,以Taqman测量结果作为“金标准”,评价算法的AUC值;(3)使用模拟的sc RNA-seq数据集,评价Rank Comp V3的真阳率和真阴率;(4)将Rank Comp V3应用于sc RNA-seq数据集GSE29087中,采用芯片数据获得的Top 1,000差异基因作为“金标准”,评价算法的精度和AUC值;(5)将Rank Comp V3应用于差异信号微弱的乳腺癌基因芯片数据集,并分析识别到的差异表达基因的功能;(6)将Rank Comp V3应用于造釉型颅咽管瘤的sc RNA-seq数据,并对识别到的差异表达基因进行功能富集分析。结果:本研究采用多个不同数据集从不同的角度对Rank Comp V3算法识别差异表达基因的性能进行评估,包括:(1)分别在Null数据集的每一类样本中识别差异表达基因,以评估算法的假阳率。本研究发现:在数据集GSE54695的4类样本中,Rank Comp V3的假阳率小于0.01%。而在先前的一项比较多种差异识别算法的研究中,所有算法的假阳率均高于Rank Comp V3;其中,Monocle2算法的假阳率最高,达到7.32%。(2)本研究采用Taqman测量结果作为“金标准”,发现Rank Comp V3在SEQC数据集中的AUC值达到0.94。先前的一项研究比较了六种不同算法在SEQC数据集中的性能,发现Linnorm算法的AUC值最高,但仍低于Rank Comp V3算法。(3)对于模拟的sc RNA-seq数据集,Rank Comp V3的性能优于多种差异识别算法,具有较高的精度和准确率以及极低的假阳率。(4)对于sc RNA-seq数据集GSE29087,先前的一项研究发现多种算法的真阳率虽然高于0.700,但由于算法识别的差异表达基因数目很多(皆大于7,500),导致其精度较低(最高仅为0.091)。而Rank Comp V3识别到587个真正的差异表达基因,其精度达到0.105,优于多种真阳率较高的算法。(5)对于差异信号微弱的乳腺癌芯片数据集,一些常规的差异识别算法识别不到或者仅识别到极少的差异表达基因,而Rank Comp V3识别到的差异表达基因富集到与癌症相关的通路;(6)本研究分别将Rank Comp V3算法应用于造釉型颅咽管瘤的sc RNA-seq数据集,并对差异表达基因进行KEGG功能富集分析,结果发现多个与癌症相关的通路被显著富集。创新点:本研究考虑到基因对的表达秩序关系在对照组和实验组中是配对的实验设计关系,故采用Mc Nemar-Bowker检验识别差异表达基因,这降低了算法的假阳率;并且,与Rank Comp算法不同,Rank Comp V3算法不仅适用于芯片和RNA-seq数据,同时也适用于sc RNA-seq数据。结论:本研究利用Mc Nemar-Bowker检验,基于REOs开发了一种差异表达基因识别算法Rank Comp V3。不管是针对芯片数据和RNA-seq数据,还是sc RNA-seq数据,Rank Comp V3都具有较好的性能,并且对批次效应不敏感。