论文部分内容阅读
转录组测序技术(RNA-seq)是研究基因表达的常用方法,目前已有近百种分析RNA-seq数据的软件。本研究基于相同硬件设备,利用传统Tophat2等软件和新开发HISAT2等软件搭建了两套RNA-seq数据分析平台并进行比较。结果显示,HISAT2的运算时间比Tophat2的运算时间快5倍左右,运算占用的最大内存少1GB左右,比对率提高5%到6%,HISAT2可以将更多的reads比对到基因组上。Stringtie的运算时间要比Cufflinks的运算时间快2到3倍,运算过程中占用的最大内存为1/6到1/7,Stringtie比Cufflinks多组装出854个transcripts和109个genes。同样的数据,Ballgown运算需要3s,而Cuffdiff2需要将近2 d,Ballgown占用的最大内存仅为Cuffdiff2的1/78,Ballgown检测到的差异表达基因数目大概为Cuffdiff2的两倍。整体来看,基于HISAT2软件组合的平台完成全部运算需要10h3min4s,占用最大内存为4.279GB;基于Tophat2软件组合的平台需要4d左右,占用最大内存为163.84GB。新分析平台能够节省大量机时和人时,提高分析灵敏度。利用基于HISAT2等软件搭建的平台,对核移植(nucleartransfer,NT)细胞、诱导多能干细胞(inducedpluripotent stem cells,iPS cells)、人胚胎干细胞(human embryonic stem cells,hESC)三种多能性细胞进行生物学比较、基因差异表达分析、GO分析、KEGG分析和基因互作网络分析。结果显示,iPS细胞和hES细胞之间上调差异表达基因为961个,大部分基因显著富集到DNA转录调控过程中,下调为577个,富集最显著的通路是胞吞;NT细胞与hES细胞之间上调差异表达基因为124个,下调为104个,大部分基因显著富集到先天性免疫应答。NT细胞与iPS细胞之间上调差异表达基因1153个,富集最显著的通路是调控干细胞多能性的信号通路,暗示在多能性方面NT细胞优于iPS细胞;下调为647个。从差异基因数和富集结果来看,相比于iPS细胞和hES细胞,NT细胞和hES细胞的基因表达谱更加相似。随后对核移植(NT)、转录因子诱导(iPS)、人胚胎干细胞(hESC)和胎儿成纤维细胞(HDF)这四类细胞进行生物学比较,找到一些与重编程过程相关通路,如DNA合成与修复、干细胞多能性维持和mRNA稳定性调节等。本研究对于进一步揭示重编程的分子机制提供了一些理论依据。