论文部分内容阅读
随着高通量测序技术的快速发展,一种新的方法——RNA-Seq技术被广泛应用于生命科学研究。它主要是针对转录组进行定位定量分析,与之前的测序方法相比,可鉴定出更多的新基因和新长非编码RNA,且预测效率明显提高。 在使用RNA-Seq数据之前,需要运用FASTX-Toolkit和Trim Galore!等质控软件对RNA-Seq初始数据进行质量检测,以提高RNA-Seq数据基因预测和长非编码RNA鉴定方法的准确性。然后,使用Tophat软件将RNA-Seq读段定位到参考基因组。 基因预测是基因组注释的重要组成部分。我们以玉米和大鼠为研究对象,设计了一个四步预测分析模型。首先,通过整合EST和RNA-Seq信息来提高基因预测的准确度。然后,利用软件AUGUSTUS预测编码蛋白质的基因,并用liftOver或者Blast软件将它们与近源物种的同源基因相比较,过滤掉冗余的基因。最后在玉米和大鼠组织中分别注释出202,048个和32,197个转录子,其中新基因分别为165,820个和4,802个。通过分析基因在不同组织中的表达水平,新预测方法可检测到更多低表达量的基因。 长非编码RNA是生命进程调控的另一焦点。我们使用Cufflinks软件将RNA-Seq片段组装成转录子,再根据长非编码RNA的结构、功能和位置特点,使用PhyloCSF和Blast软件,辅以近缘物种的注释基因,鉴定出大量的新长非编码RNA。最后,在大鼠组织和人肺组织中分别筛选出2,761个和40,626个长非编码RNA,并分析长非编码RNA在不同组织中的分布情况和表达水平.新方法可完善现有的长非编码RNA数据库。 以上研究为生物学家利用基因和长非编码RNA研究复杂疾病或性状的遗传机制提供了有效的分析方法。