论文部分内容阅读
非编码RNA(ncRNA)的最初定义为可被转录但不能编码蛋白质的RNA序列,曾被认为是没有实际功能的暗物质区域。随着基因组学和信息学的快速发展,人们发现这些暗物质区域能够转录产生的RNA在生物体内发挥重要的调控作用,因此非编码RNA也成为当前生命科学研究的热点。近期,研究发现有些lncRNA中存在能够编码短肽的小开放阅读框(sORF),这些短肽在生物体的生长发育过程中具有重要功能,深化了对非编码RNA的再认识。另一方面,最初由于sORFs序列短、丰度低等自身特点,长期以来被忽视,认为是不可翻译的序列,但是随着研究技术的快速发展,大量由sORFs编码的短肽被发现,因此sORFs的研究又进入了一个新阶段。但是现阶段对肽编码sORFs的系统的研究方法及数据库资源还很缺乏,现有研究方法不成熟,研究方向也不集中,尤其在被认为不能编码的lncRNA序列中研究甚少,因而深入揭示lncRNA中的sORFs特征对非编码RNA研究具有重要科学意义。在此背景下,本文综合运用多种生物信息方法,针对lncRNA中的sORFs分布特征和编码特征开展了系统的研究。通过对lncRNA中sORFs的分布特征研究,发现在lncRNA中sORFs是普遍存在的,并且sORFs数量与lncRNA的长度和其自身的长度都具有明显的相关性。随后借助多种序列分析方法,以NCBI数据库中编码序列为对照,从核苷酸序列组成、氨基酸序列有序区无序区组成以及功能三个层面分析sORFs序列的编码特征。首先借助主成分分析方法分析核苷酸序列的三联体频率偏好特征和基于TN曲线和Z曲线的75个参数特征,通过比较lncRNA中sORFs与编码序列的核苷酸组成特征,结果显示,在lncRNA中存在与编码序列核苷酸组成特征相同的sORFs序列;随后利用主成分分析方法分析氨基酸序列有序区无序区的三联体频率偏好和密码子频率偏好,通过比较lncRNA中sORFs与编码序列的氨基酸有序区无序区组成特征,结果表明,在lncRNA中存在与编码序列氨基酸有序区无序区组成特征相同的sORFs序列;同时使用Blast比对软件对氨基酸序列进行功能分析,结果显示,在lncRNA中存在具有功能特征的sORFs序列。综合分析结果可以看出,在lncRNA中存在具有编码序列特征的sORFs,并据此获得91条具有编码特征的sORFs序列。该研究结果与近几年在lncRNA中发现肽编码sORFs的实验结果相一致,为发现新的具有生物功能的短肽奠定了的理论基础,为今后深入系统地研究lncRNA中sORFs及其编码能力提供了新思路。