论文部分内容阅读
序列比对是生物信息研究的基础和前提,它为蛋白质结构和功能预测、系统发育树的建立、新药物设计等许多生物研究提供了有用的信息。但此问题至今仍是计算分子生物学中尚未解决的一个难题,已经证明多序列比对问题是一个NP-Complete问题。这是一个极富有挑战性的工作。国内外现有的算法大致可以分为三大类:同步法、步进法和迭代法。它们都存在一些问题,例如:同步法只能比对8条之内的序列,步进法有时会陷入局部最优解,迭代法运算速度很慢等等。Needleman-Wunsch算法是同步法中计算两条序列间最佳比对的经典算法,在迭代法中遗传算法能很好地搜索全局最优解。本文将Needleman-Wunsch算法和遗传算法有机结合应用于多序列比对,来提高多序列比对的运算精度和计算速度。新算法采用新的编码方法,使其能适应各种长度各种大小的序列比对;随机产生初始种群以确保在整个解空间内搜索求解;在交叉算子中选择父代中适应值高的子片段组成子代,保证产生更优的子代;在变异算子中引进了Needleman-Wunsch算法,加速局部搜索,提高遗传算法的收敛速度,并根据比对序列的长度,动态地进行多点交叉和多点变异,从而缩短了进化过程,提高了运算速度。并行化时采用异步通信,减少了进程之间的等待时间,克服了传统的同步通信造成主进程的瓶颈问题,从而进一步提高了运算速度,确保能更好更快地找到最优比对。最后,本文进行了一系列数据测试,实验结果证明本算法在多序列比对求解速度上明显优于现有的迭代法;除个别序列外,精度上明显优于步进法。