论文部分内容阅读
随着人类基因组、模式生物基因组计划的蓬勃发展,越来越多的生物全基因组已完成了测序。有理由相信数据的海量积累预示着理论的重大突破,然而数据并不等于知识,如何从冗长的数据中提取有用信息成了当前的一个热门课题。Z曲线是直观研究基因组序列的有力工具。基于Z曲线理论,基因组序列可由一条三维曲线唯一代表,该基因组整体和局部的特征可以一目了然。Z曲线是本文的理论基础,在文中作了简要的介绍。Z曲线有广泛的应用,本文提出了一种几何方法,将Z曲线应用于冠状病毒进化关系的分析。
全基因组序列数据的积累,使得不同生物之间的进化关系可以从分子水平上进行研究。不同于以往单纯依赖于生物形态学特征,这种分析更加深刻更加本质。利用分子序列使得我们可以研究,从单细胞生物到植物、动物甚至人的进化关系。本论文简要介绍了基于序列比对和最新提出的基于全蛋白质组序列的组成向量的两种进化关系分析方法。这两种分析方法均显示生命分为:细菌、古细菌和真核生物三个超界,无疑这种分类比基于形态学特征的更本质。不同于序列比对,我们提出了一种基于全基因组序列的三维空间Z曲线的几何学方法来分析冠状病毒的进化关系。与其他方法比较,本方法具有简单、直观等特点。Z曲线间相似程度的大小反映了进化关系的远近。我们通过比较不同基因组的三维Z曲线的分布模式,来定义不同物种之间的进化距离,这是一种全新的几何方法。Z曲线的分布模式由几何中心和特征向量来近似表示。通过这一近似就解决了所比较的基因组长度不同的问题,但同时也丢失了许多信息。虽然如此,结果仍然很令人满意。有理由相信,如果能找到其他更好的参数来提取Z曲线所包含的信息,有可能得到更精确的结果,从该意义上说,本方法有很大的发展空间。此外,本方法使用的是全基因组序列,这样就避免了选择哪个基因用来分析,能够反映全基因组的进化特征,而不是某些单个的基因,结果更准确、更客观。虽然该方法有上述优点,但仍处于雏形阶段,有待进一步发展。
另外,我们充分考虑3C-like和papain-like蛋白酶的剪切位点和剪切产物长度的高度保守性,通过限制扫描区间,有效降低伪正率,提出了一种识别冠状病毒多聚蛋白酶切位点的算法。并且利用所预测的3C-like蛋白酶序列对冠状病毒的进化关系进行了分析,结果也很令人满意。