论文部分内容阅读
传统的构建系统发育树的方法依赖于序列比对。但是序列比对的方法有许多不足:共有基因的选择具有一定的随意性;核苷酸和氨基酸打分矩阵没有统一的标准;对于进化距离较远的序列的比对可能失效;计算复杂度较高,特别是对于多重序列的最优比对计算仍然是一个 NP难题。在基因组时代,人们希望能利用物种的全基因组序列信息重构系统发育树。内核苷酸距离是 DNA数值化表示的一种方法,本文受内核苷酸距离思想的启示,提出内氨基酸距离和新的内核苷酸距离,并将其应用于生物系统发育树和宏基因组的研究中。本文主要内容如下: 第一,我们定义内氨基酸距离并将其应用于分子系统发育树的构建中,主要集中在利用全蛋白质组基于内氨基酸距离方法进行系统发育分析。我们首先将全蛋白质组转换为内氨基酸距离向量,并称其为观测内氨基酸距离向量;然后,提出利用条件几何分布列(由氨基酸随机且相互独立产生的序列的内氨基酸距离的分布)作为参考分布列;最后,计算观测分布和参考分布之间的相对偏差,从而用其定义反映不同物种全蛋白质组之间系统发育关系的距离度量。我们将该方法命名为“内氨基酸距离和条件几何分布列”(inter-amino-acid distances and conditional geometric distribution profiles,IAGDP)法。我们将该方法应用于2个数据集:数据集1为已有文献的标准测试数据集,它包含29个物种的基因组数据;数据集2包含67个哺乳动物基因组数据。数据计算结果表明:我们的方法是有效和高效率的。 第二,我们将内氨基酸距离的思想推广到核苷酸序列中来,提出核苷酸序列的内核苷酸距离,并将其作为宏基因组数据的一种新的信号而用于宏基因组可视化研究。我们首先将基因组片段序列转换为内核苷酸距离向量;然后,我们对这些片段的距离向量作主成分分析,得出主成分;最后,我们利用这些主成分根据片段物种来源画出2维散点图。我们将此方法称为“内核苷酸距离列”(inter-nucleotide distances profiles,INP)法。我们将此方法应用于3个已有文献的标准测试数据集:数据集1包含5个基因组;数据集2包含8个基因组;数据集3包含10个基因组。结果表明,内核苷酸距离列法能以一种更简单、高效率且几乎不依赖于参数选择的方式从DNA 序列中提取特征。因此,我们提出的INP方法是一种好的,高效率和可替代的宏基因组数据可视化方法之一。