论文部分内容阅读
准确了解基因组上的蛋白质编码序列对于研究遗传信息如何最终发挥生物学作用是非常必要的。然而,大部分研究集中在大编码开放阅读框(open reading frames,ORFs,长于100个氨基酸),主要是由于小编码开放阅读框(small ORFs,sORFs)的鉴定在技术上面临着巨大的挑战。最近的一些研究表明,编码sORFs在生长、发育和疾病等各种不同的生命活动中发挥着重要的作用。因此,科学家开始意识到翻译组中仍然有很大一部分未知信息有待发现。 本论文中,我们第一次全面鉴定了0-4 hr果蝇早期胚胎中的编码 sORFs。0-4hr果蝇早期胚胎经历了母体到合子过渡的阶段,最大程度的囊括了早期发育所需要的母体和合子转录子。我们首先通过翻译组即核糖体结合核糖核酸(RNA)的深度测序鉴定了所有0-4hr核糖体结合转录子。接着结合生物信息氨基酸保守性PhyloCSF分析,最终在0-4hr胚胎中鉴定了399个编码sORFs,极大的增加了现有果蝇数据库中具有翻译证据支持的sORFs。这些编码sORFs包括之前数据库中已知但缺乏翻译证据支持的128个 sORFs,之前认为是非编码转录子中的22个 sORFs,以及新发现转录子中的45个 sORFs。我们发现很多编码sORFs的不同异构体同时出现在核糖体上,表明sORFs和大ORFs—样在体内进行着复杂的翻译调控。通过增强绿色荧光蛋白融合sORFs的方法,我们随机筛选了14个编码sORFs进行验证,发现13个在体内具有很高的编码能力,而且它们在S2R+细胞中呈现出不同的亚定位特征,表明它们在体内发挥着不同的生物学作用。我们还发现,鉴定的编码sORFs有201个未在晚期胚胎来源的S2细胞系中检测到,表明很多编码sORFs在胚胎发育过程中具有发育时期编码特异性。最后,通过对编码sORFs在胚胎、幼虫、蛹到成体的基因表达形式进行分层聚类和功能富集,发现编码sORFs在不同的功能区域富集,这为未知作用的编码sORFs提供了功能预示。 本论文的创新点在于:(1)第一次全面鉴定了0-4hr果蝇胚胎中的编码sORFs,尤其是在lncRNA和新组装RNA中鉴定出了全新的编码sORFs,这为未来的研究提供了有意义的资源;(2)建立了鉴定编码 sORFs的方法:以转录子与核糖体结合为实验翻译依据,其sORFs的高氨基酸保守性(PhyloCSF分析)为潜在功能依据;(3)建立了一种操作流程简单的链特异性RNA-seq建库方法,并设计了sORF在体内的编码功能验证方法。 总体来说,本论文通过翻译组即核糖体结合RNA深度测序与氨基酸保守性PhyloCSF分析的方法,第一次对0-4hr果蝇早期胚胎中的编码sORFs进行了全面鉴定,这为进一步了解果蝇早期胚胎发育机制以及其他各种生物学过程提供了有力的资源。