论文部分内容阅读
随着基因组研究的深入,生物序列的数量呈现爆炸式增长,迫切需要使用高效的计算机算法对其进行处理。生物序列比对是一个重要的,具有挑战性的基本问题,对于推测核酸和蛋白质序列的功能、结构和进化具有非常重要的意义。但是,当大规模序列进行比对时,现有算法都存在精度低问题,本文对此进行了研究和探讨。 首先,研究了当今国内外各种序列比对算法的现状,系统地阐述和分析了最具代表性的各类算法的优缺点,分析了空位罚分、相似性替换矩阵和目标函数对序列比对的影响。 其次,从标准粒子群算法模型着手,研究了各种改进粒子群算法的优缺点,归纳出粒子群算法的局限性;针对其局限性,结合概率统计学理论和粒子群算法思想,提出了基于概率统计的粒子群算法。引入概率分布模型引导粒子产生新解,增加了粒子的全面学习能力。通过仿真验证了新算法能够有效避免陷入局部收敛,提高了最优解的精度。 再次,将新提出的算法应用到多序列比对问题中,提出了基于概率统计粒子群的多序列比对算法。采用新的编码方法,消除了算法对比对序列条数的限制。引入变异操作,保证了算法的全局收敛性。对基准比对数据库BALIBASE中142个例子进行仿真,结果验证了算法的可行性和有效性。 最后,设计和开发了基于新提出算法的多序列比对软件。该软件整合了多种常用多序列比对算法,具有执行多序列比对、追踪比对过程等功能,为计算机研究人员提供了检测算法准确性的平台。