基于Spark的Relion分布式实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liongliong440
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Relion是冷冻电镜图片三维重建的事实标准软件,通过Relion可以还原出被冷冻电镜观测物体的原有结构。冷冻电镜原本得到的二维图片进行三维重建问题的关键在于确定二维图片的位置参数,即角度和距离,即得到的电镜图片是原来标准图片如何旋转和移动得到的,其中角度等参数就是要求的关键。Relion在求这类参数时所使用的算法是一种最大似然估计,通过反复迭代计算优化得到最终的还原结构模型。Relion采用了MPI和Pthread的粗细粒度结合的并行框架。在基于MPI实现多进程的计算框架中,主节点负责分发任务,当计算集群规模扩大到一定规模以后,多个节点频繁请求任务,主节点分发任务就会变的繁忙,成为一个瓶颈。另一方面,MPI本身缺乏容错机制,如果计算任务的某个实例计算失败,则所有实例都需要重新计算,这也大大降低了并行计算效率和可扩展性。值得一提的是,Relion中占绝大部分耗时的最大似然估计算法是一种较为简单的同步并行计算,非常适合移植到现有的Spark计算框架上。在移植到Spark计算框架过程中,为利用Spark特性来支持高性能计算主要做了以下三个方面的工作:利用一个Spark RDD对象产生的DAG实现作业调度,代替原来基于MPI通讯功能的主节点给各工作节点请求式分发任务的调度机制;通过Spark的RDD Shuffle和Broadcast操作代替原来基于MPI通讯功能的数据传递方式;通过JNA调用的C++代码来使用native的BLAS等高性能线性代数计算库,并利用JNA模拟结构体进行跨语言数据传递。经测试,这种将Spark作为粗粒度计算框架的最大似然估计并行化算法具有了很好的容错性,准线性的加速比和可扩展性。与此同时,因为Relion分发的每个小任务的计算量依然巨大,需要利用Pthread、GPU等技术在细粒度并行算法层面进行多线程地计算加速,而这种基于Spark的计算框架简化和模块化了代码结构,所以这项工作也更有利于进一步无冲突的异构计算开发。
其他文献
软件无线电作为无线电发展的主要趋势,其基本思想是以一个通用、标准、模块化的硬件平台为依托,通过软件编程来实现无线电台的各种功能。在软件无线电和数字接收机系统中,对包含
宽带无线通信系统需要在无线环境下传输宽带高速业务数据,系统要求利用信号检测技术获得对接收信号的精确捕获,为后续通信信号分析与处理提供保障。宽带无线通信系统存在多径
多输入多输出(MIMO)作为B3G/LTE中的物理层核心技术之一,在点对点传输中可有效提升链路吞吐率,降低链路误码率;然而在多小区多用户无线蜂窝网络环境下,MIMO系统所固有的干扰
随着人们生活水平不断提高,食品安全问题越来越受到重视,微生物对食品的污染问题也相应地备受关注.因此,灵敏度高、简便快捷的食品安全检测技术和方法再食品检验过程中显的尤
视频跟踪是计算机视觉领域的一个基础的研究课题,也一个非常具有挑战性的研究方向。在当前的现实生活中,视频跟踪技术已经在各种领域内得到了广泛的应用,其中包括视频监控、
本课题根据系统的功能要求,采用模块化设计思想,提出了基于CPCI总线的多路数据再生系统的设计方案。将整个系统分为三个模块.分别为CPCI总线接口模块,DSP模块和32路数模转换
随着网络信息技术的发展和普及,人们对计算机网络的使用日益频繁,为提高工程项目管理的效率和有效性,建立一种基于B/S结构的有效的工程项目管理系统的设计开发模式,本文对工
说话人识别就是通过对话者的语音进行处理来实现对说话人的身份的判别。语音易获取,不像钥匙和卡一样需要随身携带,不会对人体舒适度产生影响,语音不会丢失,在日常生活中的使
相同码长的情况下,多进制LDPC码相较于二进制LDPC码而言具有更为优异的纠错性能,其抗突发错误能力强并且更适合高速传输。但随着有限域的增大,其复杂度过大不利于广泛的应用
合成孔径雷达(SAR)是遥感领域中一种重要的微波成像工具,机载和宽观测带星载SAR图像具有明显的入射角效应,它是影响SAR图像解译精度的重要原因。极化SAR是一种新型的多参数、