论文部分内容阅读
以惊人的速度急剧增长的生物分子序列数据急需高效的计算方法来进行分析处理。由于算法本身的复杂度较高,在包含生物序列较多的大型数据集面前,传统的基于比对的序列比较方法显得无能为力。打分矩阵选择的困惑是比对方法在实际应用中的另一难题。为了克服以上两方面的问题,许多非比对方法纷纷涌现,不同程度地解决了序列比较问题。在所有的非比对方法中,基于k-词频率的方法无疑是讨论最多的。基于k-词频率的大多数非比对方法倾向于把每个k-词看成孤立的个体,忽略了它们之间的联系和整体性质。此外,基于k-词频率的非比对方法下的距离空间与生物序列的数量和差异联系紧密。在这样的距离空间中,很难判定最小的非零距离是多少。因此,给定一个具体的相似性距离,我们无法判断它对应的两条序列的相似性程度。为了解决以上两个问题,在本文第二章,我们提出了一个新的基于k-词数量的可用于序列比较的相似性距离。对于给定的长度k,我们研究了同一序列中的所有4k个k-词相互之间的数量关系,提出了一个由所有k-词的次序号构成的向量作为一条序列的特征向量。以这个特征向量为基础的相似性距离不受序列长度和差异的影响,并且揭示了DNA序列中k-词的整体性质。我们对这个新距离进行了相似性序列查找实验和进化树构建实验。实验表明,我们的方法得到了非常理想的结果,可以用于生物序列比较。由于序列长度的差别,基于k-词的序列比较方法和图形表示方法用完全不同的方式揭示了序列中的生物信息。然而,生物序列的信息存储方式随着序列长度的变化而改变的可能性很小。一个适用于不同长度序列的序列比较方法距离揭示生物序列的信息存储方式要近得多。在本文第三章,我们建立了一个适用于多种长度序列的序列比较方法。基于双射条件下,我们从生物序列中抽取了新的子序列。对每个子序列,我们用一元线性回归模型进行了分析。然后,基于回归模型的变量,我们定义了序列的相似性距离。通过与其他的非比对方法进行比较,我们的距离在四个不同长度生物序列的数据集中的应用结果都很理想。尽管人们提出了许多用于序列比较的基于k-词的相似性距离,绝大多数距离侧重k-词的数量而忽略了k-词的位胃信息。事实上,k-词的位置信息包含了重要的生物信息,如基因的重排,反转,置换,迁移等。在本文第四章,根据k-词的位置信息间的相互联系,我们提出了一个新的序列相似性距离。我们将这个距离应用到3组真实的生物序列中,都得到了符合生物学意义的结果。最后,对于每章提出的相似性距离,我们都深入分析了k-词的最优长度取值问题,并且给出了可操作的k-词最优长度判别方法。我们相信,k-词最优长度判别方法使我们的方法在实践操作中减少人为干预,.提高效率。每一个方法本身,都加深了我们对生物序列的认识。