论文部分内容阅读
序列比对是生物信息学中一种基本的信息处理方法,其主要目的在于阐明序列之间的相似关系,以及从已知序列预测新序列的结构和功能,是基因定位、基因分析以及模式识别和预测的前提条件,它还在重复序列的搜索、基因组的拼接以及分子进化分析方面有着广泛的应用。
本文针对遗传算法应用于多序列比对时所遇到的比对数目受限以及寻优速度慢的问题,提出一种新的基于聚类和遗传算法的DNA多序列比对迭代算法,它借鉴CLUSTAL算法的处理方法,应用了k-means聚类来构建一棵独特的比对二叉树,以增强序列组的关联性,降低遗传算法的比对数目;聚类过程中,在一定条件下引入了SVM分类算法对聚类结果加以修正;并在对二叉树回溯处理时采用了选取最优中心点的星比对方法,防止空位过多的情况出现。