基于RNA-Seq数据的基因预测和长非编码RNA鉴定的分析方法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:jerryfong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,一种新的方法——RNA-Seq技术被广泛应用于生命科学研究。它主要是针对转录组进行定位定量分析,与之前的测序方法相比,可鉴定出更多的新基因和新长非编码RNA,且预测效率明显提高。  在使用RNA-Seq数据之前,需要运用FASTX-Toolkit和Trim Galore!等质控软件对RNA-Seq初始数据进行质量检测,以提高RNA-Seq数据基因预测和长非编码RNA鉴定方法的准确性。然后,使用Tophat软件将RNA-Seq读段定位到参考基因组。  基因预测是基因组注释的重要组成部分。我们以玉米和大鼠为研究对象,设计了一个四步预测分析模型。首先,通过整合EST和RNA-Seq信息来提高基因预测的准确度。然后,利用软件AUGUSTUS预测编码蛋白质的基因,并用liftOver或者Blast软件将它们与近源物种的同源基因相比较,过滤掉冗余的基因。最后在玉米和大鼠组织中分别注释出202,048个和32,197个转录子,其中新基因分别为165,820个和4,802个。通过分析基因在不同组织中的表达水平,新预测方法可检测到更多低表达量的基因。  长非编码RNA是生命进程调控的另一焦点。我们使用Cufflinks软件将RNA-Seq片段组装成转录子,再根据长非编码RNA的结构、功能和位置特点,使用PhyloCSF和Blast软件,辅以近缘物种的注释基因,鉴定出大量的新长非编码RNA。最后,在大鼠组织和人肺组织中分别筛选出2,761个和40,626个长非编码RNA,并分析长非编码RNA在不同组织中的分布情况和表达水平.新方法可完善现有的长非编码RNA数据库。  以上研究为生物学家利用基因和长非编码RNA研究复杂疾病或性状的遗传机制提供了有效的分析方法。
其他文献
LNG是液化天然气的简称,通常情况下存储于储罐中,具有耐低温、安全性能良好等特点,然而LNG储罐的设计施工要求较为复杂,因此与其相关的施工工艺一直被业界和学界广泛讨论.本
期刊
期刊
期刊
期刊
本研究以鲁引1号、夏波蒂、早大白、大西洋4个品种的微型薯为材料,建立了离体再生体系和转基因技术体系,并用PVS-CP基因转化马铃薯4个品种,获得了转基因植株。 用脱毒微型薯
期刊
期刊
期刊
期刊