论文部分内容阅读
新一代测序技术具有高通量、低成本等优势,在动物和植物的基因组测序及基因表达研究中被广泛应用。棉花不仅是一种重要的经济作物,其纤维细胞也是理想的研究植物细胞生长发育的模型。但由于其基因组较大、多倍性等原因,全基因组的测序及拼接工作难度较大。因此,为了解读基因的功能,更好的研究基因在棉花生理代谢活动中的作用,利用新一代测序技术对棉花基因表达进行研究已成为近些年来的研究热点。然而如何利用生物信息学工具从新一代测序产生的海量数据中挖掘有效的信息,成为目前急需解决的问题。据此本研究建立了一个基于新一代测序的数字基因表达谱生物信息学分析平台,并应用于棉花RNA测序数据。此分析平台的流程包括对测序原始数据的预处理,与参考序列的比对,基因表达量和测序覆盖度的统计,对多个样本的基因表达差异分析以及后续的功能注释和代谢通路分析。然后应用此分析平台,对陆地棉YZ1正常株系和PDF1基因RNAi株系开花当天的胚珠RNA测序数据,共四个样本(DF1-DF4),进行了全面的分析。主要的研究结果如下:1.分析平台的建立:利用FASTX-Toolkit对测序原始数据进行质量控制,去掉低质量的序列后得到待分析数据(clean reads),接着利用Maq和Bowtie将clean reads比对到参考序列上,并编写python脚本统计RPKM值和测序覆盖度,合并多个样本的比对统计值之后利用DESeq进行差异表达分析,最后将差异表达的基因利用Blast2GO进行GO功能注释,WEGO进行功能分类统计,KEGG进行代谢通路分析。2.成功应用于DF1-DF4四个样本的测序数据分析:对DF1-DF4进行质量处理后,均保留了99.6%的数据;比对到参考序列上的基因,其RPKM值小于100的分别占了92.2%,91.7%,91.7%,91.0%;DF1与DF2进行水平内去除差异后,与DF3的比较得到27个差异表达基因,其中23个上调表达,4个下调表达;与DF4的比较得到345个差异表达基因,其中51个上调表达,294个下调表达;前者获得52个GO注释和9个KO注释,后者获得142个GO注释和112个KO注释。本研究所建立的表达谱分析平台通过对棉花RNA测序数据的应用及结果展示,显示了其可行性,为以后大规模基因表达分析奠定了良好的基础。