论文部分内容阅读
长链非编码RNA(lncRNA)一般情况下指的是长度大于200个核苷酸,无法编码蛋白质但却具有重要功能的转录本。lncRNA在真核生物的基因表达调控中具有非常重要的作用。许多lncRNA被认为不仅与mRNA的表达调控相关,而且还与生物的生长发育以及生物相关的疾病有联系。lncRNA在哺乳动物中有着大量的研究,相比之下,植物中lncRNA的研究则相对不足。
随着测序技术的进步,用于预测lncRNA的手段也产生了相应的变化。三代测序技术以其超长的读长数据对lncRNA的研究提供了极大的便利。使用三代测序技术我们能够直接获得完整的转录本序列而省去了转录本拼接的过程从而避免了转录本拼接所引入的错误。
本研究中,我们利用PacBio单分子实时测序技术对水稻,小米,高粱,二穗短柄草四个禾本科植物的转录组进行了测序。接下来利用生物信息学方法预测出四个禾本科植物的lncRNA,其中,小米预测出260个lncRNA,二穗短柄草预测出647个lncRNA,高粱预测出437个lncRNA,水稻预测出1873个lncRNA。我们统计了在这四个禾本科植物中lncRNA的长度分布,结果发现高粱的lncRNA长度是四种禾本科植物当中最长的,平均长度1.2kb,二穗短柄草的lncRNA长度是四种禾本科植物当中最短的,平均长度为0.8kb,与基因组大小的差异相对应。我们预测出的大多数lncRNA都是单外显子。我们将四个物种总共4863个lncRNA利用CD-HIT软件进行聚类,结果共产生412个cluster,并在聚类水平上进行跨物种的lncRNA家族分析。
我们还统计了水稻,小米,高粱,二穗短柄草这四个物种的lncRNA在染色体上的分布。结果发现这四个物种的lncRNA在染色体上的分布比较相似,它们都富集在着丝粒外围区域,我们猜测这种情况可能和低重复区以及低GC/CHG甲基化区域相关。
此外我们还在这四个物种当中选择小米进行了进一步的研究。我们根据小米的lncRNA在其参考基因组上的位置将小米的lncRNA进行分类。其中64%来自基因间隔区,17%来自反义链,16%来自有意链,3%来自内含子区。进一步分析发现小米的lncRNA表达水平比编码蛋白的转录本低且具有组织特异性。
最后,为了将上述分析研究所得的数据结果做一个整理及存储,给后续的进一步研究提供相关的数据资料,同时也为了方便相关的学术交流。我们建立了一个禾本科植物的lncRNA数据库网站:DGL。数据库网址是:http://lncrna.camdb.org。该数据库的数据来源于上述实验分析得到的结果。数据库收集了水稻,小米,高梁,二穗短柄草四个禾本科植物的lncRNA,并且提供了相应的lncRNA的注释。值得一提的是,这个数据库还提供了网站内浏览水稻,小米,高粱,二穗短柄草的lncRNA在染色体上分布的信息的功能。此外,该数据库还提供了blast功能,如果用户手上拥有lncRNA的核酸序列,那么就可以根据blast结果找到相应的同源lncRNA注释信息。为了方便展示水稻,小米,高粱,二穗短柄草等植物基因在基因组上的位置信息,我们还在该数据库网站上添加了Jbrowse基因浏览器。通过使用Jbrowse基因浏览器,我们可以在该数据库网站上查看水稻,小米,高粱,二穗短柄草的转录本信息以及搜索某个具体的基因和位置相关基因的外显子内含子信息。
随着测序技术的进步,用于预测lncRNA的手段也产生了相应的变化。三代测序技术以其超长的读长数据对lncRNA的研究提供了极大的便利。使用三代测序技术我们能够直接获得完整的转录本序列而省去了转录本拼接的过程从而避免了转录本拼接所引入的错误。
本研究中,我们利用PacBio单分子实时测序技术对水稻,小米,高粱,二穗短柄草四个禾本科植物的转录组进行了测序。接下来利用生物信息学方法预测出四个禾本科植物的lncRNA,其中,小米预测出260个lncRNA,二穗短柄草预测出647个lncRNA,高粱预测出437个lncRNA,水稻预测出1873个lncRNA。我们统计了在这四个禾本科植物中lncRNA的长度分布,结果发现高粱的lncRNA长度是四种禾本科植物当中最长的,平均长度1.2kb,二穗短柄草的lncRNA长度是四种禾本科植物当中最短的,平均长度为0.8kb,与基因组大小的差异相对应。我们预测出的大多数lncRNA都是单外显子。我们将四个物种总共4863个lncRNA利用CD-HIT软件进行聚类,结果共产生412个cluster,并在聚类水平上进行跨物种的lncRNA家族分析。
我们还统计了水稻,小米,高粱,二穗短柄草这四个物种的lncRNA在染色体上的分布。结果发现这四个物种的lncRNA在染色体上的分布比较相似,它们都富集在着丝粒外围区域,我们猜测这种情况可能和低重复区以及低GC/CHG甲基化区域相关。
此外我们还在这四个物种当中选择小米进行了进一步的研究。我们根据小米的lncRNA在其参考基因组上的位置将小米的lncRNA进行分类。其中64%来自基因间隔区,17%来自反义链,16%来自有意链,3%来自内含子区。进一步分析发现小米的lncRNA表达水平比编码蛋白的转录本低且具有组织特异性。
最后,为了将上述分析研究所得的数据结果做一个整理及存储,给后续的进一步研究提供相关的数据资料,同时也为了方便相关的学术交流。我们建立了一个禾本科植物的lncRNA数据库网站:DGL。数据库网址是:http://lncrna.camdb.org。该数据库的数据来源于上述实验分析得到的结果。数据库收集了水稻,小米,高梁,二穗短柄草四个禾本科植物的lncRNA,并且提供了相应的lncRNA的注释。值得一提的是,这个数据库还提供了网站内浏览水稻,小米,高粱,二穗短柄草的lncRNA在染色体上分布的信息的功能。此外,该数据库还提供了blast功能,如果用户手上拥有lncRNA的核酸序列,那么就可以根据blast结果找到相应的同源lncRNA注释信息。为了方便展示水稻,小米,高粱,二穗短柄草等植物基因在基因组上的位置信息,我们还在该数据库网站上添加了Jbrowse基因浏览器。通过使用Jbrowse基因浏览器,我们可以在该数据库网站上查看水稻,小米,高粱,二穗短柄草的转录本信息以及搜索某个具体的基因和位置相关基因的外显子内含子信息。