基于Spark基因序列两两比对任务并行化的研究与实现

来源 :内蒙古农业大学 | 被引量 : 1次 | 上传用户:ccshixg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,序列数据正以指数方式迅猛增长,从这些序列数据中分析和挖掘有价值的信息是当前研究的热门话题。在生物信息学中,通过序列两两比对测定序列的相似性,获得相似度较高序列,然后将这些相似序列进一步比对,推测多条序列之间的同源性。而将海量的测序序列全部进行两两比对是一个复杂且耗时的问题。为了提高序列两两比对的效率和可扩展性,本文基于大数据技术对基因序列两两比对的并行化问题进行了研究。主要工作有:(1)在单机上实现了双序列比对Blast算法的程序,简化了原有软件的执行步骤,结果与原有的Blast结果一致。(2)采用平均分配的原则,实现了基于Linux集群的基因序列两两比对任务的并行化,较单机运行提高了比对效率。(3)基于比对任务配置文件,通过Spark框架的pipe机制调用Blast算法,实现了基于Spark的序列两两比对任务的处理。本文在vSphere虚拟化平台上搭建了16个节点的Spark集群环境。分别在单机、Linux集群和Spark集群上进行了大量的比对实验。实验数据表明,基于Spark集群的两两比对比在单机和Linux集群环境下运行总时间都少。而且随着集群计算节点数目的增加,比对效率更高,可扩展性更强。
其他文献
榆神矿区煤炭资源储量丰富,煤质优良,地质构造简单,开采条件优越。但采用长壁综采开采、长壁间隔开采和传统房柱式开采方法时,常发生顶板大面积塌陷灾变,既给矿井造成严重人
陶瓷颗粒铝基复合材料是目前应用最为广泛的金属基复合材料,然而目前铝基复合材料主要应用还局限于航空航天和军工领域。一个重要原因是硬质脆性陶瓷相的加入导致铝基复合材
党的十九大明确指出,要加强和创新社会治理,推动社会治理中心向基层下移,建立共建共治共享的社会治理格局。进入新时代,人民对美好生活有了更高的向往和要求。在基层社会治理
在生物神经系统中神经元同步放电是普遍存在的现象,且同步放电在神经信息过程中起到关键的作用。在整个神经元系统中神经元之间信息的处理、编码、整合和传递过程必须通过多
在钢结构的实际应用当中,构件的承载能力往往受稳定性能影响,破坏形式除了屈服之外还应当考虑屈曲情形。目前,对于钢结构的承载能力设计当中,大多数国家最常用的是截面分类法。其中,对于Ⅰ、Ⅱ类截面,塑性铰转动能力较好,采用塑性设计;对于Ⅲ类截面,往往在材料屈服前即发生屈曲,采用弹性设计;第Ⅳ类截面采用有效宽度法计算其承载能力。在截面分类法中,不同的截面形式采用不同的设计方法,这会在第Ⅱ、Ⅲ类截面之间产生断
伴随着信息技术等各种新兴技术的发展,数据、信息作用日益凸显,电力系统也正在从传统的形式趋向于信息物理深度融合的状态,信息物理融合系统会成为未来智能电网的更高级形态,未来的能源互联网也必定是一个信息物理深度耦合的系统。目前电网系统越来越迫近信息物理的深度融合,面临的风险也越来越复杂,但是相关的研究还比较少。本文选取耦合层的角度,对电网信息物理融合系统进行风险识别和控制研究,探讨数据挖掘技术在风险识别
燃煤发电在中国电源结构中一直占有主导地位,但随着近年来国家节能减排的政策要求以及可再生能源的兴起,燃煤发电份额逐渐减少。燃煤发电想要进一步发展,提高发电效率,降低发电煤耗势在必行。本文以某超超临界二次再热机组为案例,利用Ebslion搭建模型,通过对系统的传热分析,回热系统图像(?)分析,机组全工况单耗分析,找出二次再热系统中能量匹配关系,揭示了二次再热系统优化潜力。针对超超临界二次再热燃煤发电机
伴随着移动互联网的迅猛发展,移动智能设备的日益普及,视频直播、点播等视频应用的爆发性增长,视频流量在整个网络流量的比重正在不断增多。为了使得用户在观看视频的过程中
信号在波导中传播时由于受到波导上下两个界面以及波导中其他散射体所造成的一次或多次声反射或散射,会导致信号沿许多不同的路径进行传播,因此波导中的波场是多路径波场。三
随着汽车保有量的增加,汽车在给人们带来交通便利的同时,也造成了交通拥堵和交通事故频发等问题,汽车智能化已经成为了国内外汽车行业的重点发展趋势。汽车智能驾驶的目标检测和语义分割等环境感知技术是其中关键的一环,感知结果直接影响车辆的决策规划及整车的执行控制。深度学习方法在计算机视觉领域取得了巨大的进展,基于深度学习的视觉感知是研究智能驾驶的可行方案,而目标检测和语义分割都是视觉感知的核心任务。本文主要