基于Map/Reduce的序列比对算法BLAST并行化研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:kangj04
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物学当中,BLAST序列比对算法是一个应用极为广泛的算法,它对海量DNA或蛋白质序列进行处理,具有数据密集和IO密集型特征,消耗时间通常令人难以忍受。因而,通过并行化来提高BLAST运算效率备受研究人员关注。当前,研究人员一般采用MPI方式来完成BLAST算法并行化,但MPI主要适合于处理计算密集型运算,且需要专门的超级计算环境支持,利用它来完成BLAST并行化有诸多限制。而专注于处理数据密集与IO密集型运算的Map/Reduce计算模型的出现,为BLAST算法的并行化,提供了一个新的实现思路。   本文主要研究如何基于Map/Reduce计算模型来并行化BLAST算法,主要研究内容如下:   1.研究如何利用Map/Reduce计算模型来并行化BLAST算法,重点研究同时对输入序列文件与序列库进行切分的双切分并行化方式。   2.利用Map/Reduce计算模型的实现框架Hadoop构建数据密集型运算平台,并在该平台之上采用三层结构来完成BLAST算法的双切分并行化。   3.通过在该平台上,对仅切分输入序列的单切分方式与双切分方式进行各种不同情况下的效率比较,得到双切分方式在大序列库的情况下运算效率远高于单切分方式、而在小序列库的情况下运算效率低于单切分方式的结论。   本文的研究工作,为生物学领域的研究人员选择合适的方式来并行化BLAST算法提供了理论依据,同时积累了利用Map/Reduce计算模型来处理数据密集型计算的经验。
其他文献
区别于传统的存储服务,P2P存储系统是通过够聚合网络上的空闲存储和带宽资源来提供存储服务,而不是基于数据中心。这使得P2P存储在当今具有重要的应用价值:一方面,随着数据中心规
学位
现代城市是一个影响因素繁多,内部关系极其复杂的系统。由于城市系统中各变量之间影响关系错综复杂,因此挖掘城市运行变量之间的隐含关系是城市规划领域中的一个重要研究方向
随着当代计算机技术和信息技术的不断发展和应用,数据收集手段越来越多,数据存储量越来越大,如何从海量数据中排除一些不会被用户考虑的信息并找出用户最感兴趣的信息,从而为用户
个体活动链包含了个体活动的时间、位置、次序和活动目的等信息,是理解个体时空行为特征的重要基础。从时空角度理解和分析个体活动链能够为城市人口管理、城市规划、交通分析
随着数字技术和因特网的发展,图像、音频、视频等形式的多媒体数字作品纷纷在网络上发布,其版权保护与信息完整性保证逐渐成为迫切需要解决的一个重要问题。隐写技术作为信息
溶解氧是指溶解于水中分子状态的氧,是水生生物生存不可缺少的条件,也是水污染和水体富营养化监测时的一项重要指标,对水质监测、水产养殖业的发展、饮用水安全等都具有非常
学位
科研活动中存在大量文档形式的资料。支持e-Science的协同工作环境不仅要能实现常规的文档共享和管理,还需充分发挥在线协作的优势,能够对大量多种格式的文档进行即时在线浏览
信息技术的飞速发展给数据保护提出了越来越高的要求。传统的数据保护技术无法很好解决备份时间窗口、恢复时间窗口及恢复时间点粒度这三者之间的矛盾关系,持续数据保护(Cont
学位
跨文本命名实体同指是指出现在多个文本中的相同名字指称现实世界中的相同对象。同指消解则是判断相同的名字是否指称相同对象的过程。跨文本同指消解对于多文本摘要和信息融
学位
随着计算机网络和无线射频识别(RFID,Radio Frequency Identification)开环应用的普及,RFID搜索技术已经成为一个研究热点。由于RFID电子标签的容量十分有限,因此大量的RFID