论文部分内容阅读
系统进化树的研究已经有很长的历史,它在分子进化与系统发育研究中起的作用也越来越大。系统进化树直观的反映出生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。传统系统进化树的构造分为两类,即基于距离数据的构造方法和基于特征数据的构造方法。这些方法产生的都是二叉树,二叉树能够直观的描述序列两两间的关系,但对多个序列之间的关系描述不够准确;同时在构造过程中Tie Tree问题的频繁出现,严重影响了进化树构造的准确性,这些都是困扰系统进化树构造的问题。
在人工神经网络理论被大量应用到生物信息学研究领域之后,大大推动了系统进化树构造方法研究进一步发展,特别是无监督自组织映射理论,为系统进化分析提供了很好的理论基础。近几年,神经网络已经在序列分析与序列比对领域得到了很好的应用,取得了不错的效果,特别是在对海量序列数据的分析和处理噪音数据方面优势明显。
本文围绕现有构树算法中存在的问题,利用神经网络原理,结合模式分类,提出一种新的称为MSOT算法的系统进化树构造算法,该算法通过自身学习能力,挖掘序列内在的关系,不局限于两两序列之间的对比,而是从整个序列组的角度出发,从整体上对序列进行聚类,在此基础上构造进化树。通过这些方法解决了现有基于距离的构树过程中出现的Tie Tree问题,同时解决了传统方法只能生成二叉树的缺点,使用多叉树更加准确的刻画系统进化。较好地解决了海量分子序列数据构造系统进化树的问题,提高构造系统进化树的准确率,为生物分子研究和生物进化研究提供一种更加合理有效的依据。
算法采用自组织神经网络对序列进行分类,通过网络节点的增长生成进化树,同时还通过设置适当的参数,优化进化树的分层及序列聚类。网络既可以生成一棵完全多叉系统进化树,也可以通过设定收敛极限得到指定层数的中间树,前者可以体现序列的整体结构,后者可以较好地描述各个序列所代表物种的祖先之间的关系,这是传统方法无法做到的。
通过计算机模拟对蛋白质序列组的系统进化树构造过程,验证了算法构造多叉系统进化树的可行性,并验证了算法在克服Tie Tree问题时的有效性,提高了进化树构造的准确性。通过对多组蛋白质序列组的实验表明,算法可以构造完整的多叉系统进化树,并且在变换输入顺序后,系统仍然能够得到相同的结果,克服了Tie Tree问题,聚类效果得到了很大改善。