论文部分内容阅读
密码子是m RNA上的三个连续核苷酸,是合成蛋白质时核苷酸编码氨基酸的规律。遗传密码的破译对接了蛋白质信息和核酸信息,是分子生物学研究中一个里程碑事件。部分氨基酸由多种不同类型的同义密码子所编码,这使得编码相同蛋白质的基因可能具有完全不同的密码子使用模式。而同义密码子的偏好性使用在转录、翻译水平上影响着基因的表达。在共翻译蛋白质折叠过程中,密码子的偏好性使用改变了蛋白质的构象,从而导致其功能的分化。不仅如此,m RNA的稳定性,癌症和其他疾病的发生与密码子的使用模式相关。随着后基因组时代的到来,从公共数据库中可以获取海量的基因组和转录组数据。如何分析利用已有的数据,为实验研究提供参考,是目前生物信息学研究的重点内容之一。蔷薇目桑科植物川桑(Morus notabilis)的基因组测序,为其他蔷薇目植物的研究提供了丰富的基因数据。桑树本身适应性强,在全球有广泛的分布,并且具有很高的食用药用价值。本研究对川桑密码子进行了较为全面的生物信息学分析。主要研究结果如下:1.川桑叶绿体基因组密码子分析对川桑叶绿体基因组的研究发现,选择压力作用于基因的密码子使用。对十五个蔷薇目物种的叶绿体的研究表明,蔷薇目植物间的叶绿体基因核酸组成十分近似。物种间密码子使用模式的相似性与物种的亲缘关系不完全一致,表明选择压力作用于一些物种中的一些基因使得相近物种的密码子使用模式呈现出较大的差异。蔷薇目物种叶绿体基因密码子使用普遍受到选择作用,川桑相较而言受到了最弱的自然选择。2.川桑核基因组密码子分析对川桑核基因组密码子使用模式的分析鉴定出了川桑中的高频密码子和最优密码子。结合转录组数据分析发现,川桑的最优密码子的使用比例随着基因的表达水平升高而升高,这种现象在持家基因中表现尤为明显。对影响川桑密码子使用的潜在因素分析后发现,基因的碱基组成、长度、表达量和编码氨基酸的分子量均会影响同义密码的偏好性使用。在进行多重相关分析时发现,川桑中高表达基因具有长度短,强的密码子偏好性,高的GC含量,偏好使用低分子量和合成成本更低的氨基酸的特点。对其密码子偏好性观测值与预测值差异较大的基因分析后发现,涉及核苷酸代谢、能量代谢、转录、翻译等过程的基因往往更容易受到选择作用从而呈现出更强的密码子偏好性,这意味着基因功能与密码子使用模式似乎存在一定的联系。进行交互信息分析后发现,仅在涉及嘧啶代谢、嘌呤代谢和RNA聚合酶等过程的基因中存在大量密码子具有基因功能特异的密码子使用模式,而其他功能的基因没有十分独特的密码子使用模式。研究发现持家基因中密码子偏好性与基因表达水平有一个较好的对应关系,近年在人的基因中发现类似的现象并提出了持家基因的密码子可能受到更显著的翻译选择。研究中发现基因的表达水平影响着基因的密码子偏好性,川桑中持家基因的表达水平明显高于组织表达特异基因和其他基因。比较了表达水平近似的持家基因和其他基因后仍然得到类似的结果,表明在持家基因中密码子受到明显的选择。密码子上下文偏好同样在川桑中被观察到。有趣的是这种密码子上下文偏好性受基因表达水平的影响,不仅相邻密码子之间存在偏好性,密码子在基因中的位置同样影响着同义密码子的偏好性使用。基因起始区域偏好使用简并位点为C的密码子,而回避使用简并位点为U的密码子。简并位点为C的密码子在不同基因中呈现出较为一致的使用趋势,而其他的密码子基于位置的偏好性并不十分一致。尽管存在基于位置的密码子偏好性,但是这种偏好性似乎没有使得川桑基因的折叠能量与同义密码子空模型之间存在显著差异。3.带有用户界面的密码子分析软件Codons Box的开发整理本研究中经常使用的功能,使用Java开发带有友好用户界面的密码子分析工具Codons Box。这使后续密码子分析可以回避部分重复性的工作,研究者可以专注于更为深入和个性化的密码子研究。Codons Box的网络地址为:https://github.com/cqwenyan/Codons Box,该软件将为相关领域的研究提供帮助。川桑密码子的研究为其他植物的相关分析提供了基础资料,也为桑树转基因和育种研究提供了基础数据。开发得到的工具为密码子分析提供了简单高效的方法,方便其他物种中密码子的个性化研究。