论文部分内容阅读
人类基因组计划(human genome projeet,HGP)是美国在1990年提出实施的一项伟大的科学计划,自那以后,人们已经获取了大量的DNA、RNA及蛋白质序列的数据,目前,生物分子数据量每15个月翻一番,这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。
随着人类基因组计划(HGP)的开展,生物信息学作为生命科学的核心学科在不断的向前发展。序列比对是生物信息学中一个非常重要的研究内容,是基本的处理信息的方法。将大量累积的核酸和蛋白质序列进行比对,对发现生物序列的功能、结构和进化信息具有重要的意义。
如果两个序列具有足够的相似性,那么它们可能是同源的。两个同源的生物,其序列具有一定的相似性。如果一个新测定的DNA序列与一个已知的基因序列很相似,那么该基因序列含有与已知基因序列相似的结构和功能。因此,序列比对方法的应用对于基因结构和功能的研究具有较大的实际意义。
随着生物序列数据的激增,开发高效率的比对算法就显得非常迫切。本文研究了生物信息学中的双序列比对算法。首先介绍了生物信息学的基础知识和序列比对的数学模型,然后着重介绍了Needleman-Wunsch、Hirschberg以及Ukkonen三种经典的双序列比对算法,并在数值实验的基础上对它们进行了比较分析。最后,在Needleman-Wunsch算法基础上提出了一种启发式的改进算法。经实验表明,改进算法在一些应用条件中精度损失较小的情况下速度得到了较大的提高。当对同源序列所要求的同源相似度较高(如近亲物种)时,算法的速度提升很高,精确度损失也较小。