论文部分内容阅读
非编码RNA占人类基因组的98%以上,在基因表达和调控中发挥着重要作用。真核生物基因组中的非编码序列包括5’UTR、3’UTR和内含子。非编码RNA主要包括tRNA、rRNA、small nuclear RNA(snRNA)、small nucleolar RNA(snoRNA)以及telomerase RNA等。这些功能性的非编码RNA通常都具有很好的二级结构。RNA的结构与其功能密切相关,不同功能的非编码RNA具有不同的二级结构特征,而且RNA的二级结构在长时间的进化中保守性很好。因此结构性的非编码RNA往往具有重要生物学功能。我们通过改进以前建立的结构性非编码RNA的生物信息学流水线,建立了应用于动物基因组结构性非编码RNA发现的生物信息学流水线,并在人和无脊椎动物基因组中发现了大量新的结构性non-protein-encoded RNAs(ncRNAs)。我们利用建立的评分系统,对非编码RNA库中的结构性非编码RNA进行打分筛选,提高预测的准确度。我们利用RNAcode评估这些结构性非编码RNA的编码能力,进一步去除有潜在编码能力的结构性RNA。同时,我们利用Infernal cmscan去除已知的功能性非编码RNA。对于一些结构性好的非编码RNA,我们利用perl程序提取其所在的位置,宿主基因、所在基因的位置等可能与其生物学功能相关的基础信息。我们利用RBPmap预测了可能与其结合的蛋白,利用RegRNA2.0分析其可能含有的调控元件,为了进一步分析,我们还通过在线网站metascape对其预测的结合蛋白进行了功能聚类分析,对于可能与剪接相关的结构性非编码RNA,我们通过TCGA-SeqDatabase分析其可能相关的疾病。综上所述,利用CMline,我们在人基因组和无脊椎基因组中获得了大量的结构性非编码RNA,然后利用评分程序对其进行筛选,对部分高分motifs利用建立的功能分析流程进行功能分析并通过设计特异性的引物,验证其在细胞中的表达。本研究在人类基因组发现了17329个结构性非编码RNA,在无脊椎动物基因组中发现的26975个结构性非编码RNA。我们统计了其宿主基因,染色体位置,基因位置,代表物种,代表序列,及motif结合蛋白和motif含有的调节元件等信息。通过Linux、Apache、MySQL以及PHP脚本等工具成功构建了Structure non-coding RNA(Str_ncRNA)数据库。这些研究将有力促进新的结构性非编码RNA的发现以及它们的功能研究。