论文部分内容阅读
Motif识别算法及相应并行算法的研究和优化改进是国家自然科学基金重点项目“当代并行机的并行算法应用基础研究”的主要研究内容之一,寻找motif对于生物信息学的基因表达有着很重要的研究价值,其并行算法的研究是在超级计算机上进行大量motif识别计算研究的重要基础。本文围绕motif识别算法和软件,所做出的主要工作如下:
1)在大量文献调研的基础上,总结了motif寻找软件所使用的4种基本算法,并对每种算法的各种性能进行了评价。
2)motif寻找软件的时间分析
针对9种软件找出有代表性的4条序列,并选择统一的比较参数——motif长度、motif个数、似然说方法的循环次数等等,然后将这些软件在联想深腾6800超级计算机上进行测试,得出各种软件的运行时间并进行分析。实验证明,这些结果基本符合各软件相应算法的时间复杂度。
3)Weeder软件的并行模式设计
在深入了解Weeder的算法后,本文作者提出了一套MPI并行设计方案。其设计理念是将Weeder要读入的序列集进行分割,每个进程都算出各自即将运行的序列条数,并执行程序。最后主进程收集所有的结果,按照得分找出最佳的motif。从最后的加速比及并行效率可以看出,实验很好的实现了并行设计,实现了趋于线性的加速比以及较高的并行效率。
4)本文将并行优化后的Weeder软件包集成到中国国家网格上,可以为具有同样计算需求的科研人员提供计算服务。
本文为研究人员在选择motif识别算法与软件方面提供了参考;并设计了并行优化的Weeder软件,以及在中国国家网格上包装了并行Weeder软件以提供浏览器界面使用方式;此外,Weeder软件的并行化方法可为其它类似软件的并行优化提供重要参考。