面向生物图像的大数据分析平台及算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:njuchen1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪后,生命科学获得了飞速的发展。而成像技术的迅猛发展带来了生物图像分析需求的不断提高。本论文主要围绕生物图像的大数据分析平台以及相关算法展开研究。整个分析平台将高性能机群的计算能力与机器学习算法的分析能力结合在一起,从机群级与节点级两个维度进行并行优化,并通过简单易用的接口,可以快速高效的搭建高性能生物图像分析流水线。  本论文利用该分析平台对两个不同领域的生物图像分析问题进行研究。一个是大肠杆菌超氧炫检测问题,属于生物信号检测领域;另一个是小鼠胚胎心脏重构问题,属于胚胎发育学领域。  本论文围绕生物图像的大数据分析平台、处理算法以及相关应用展开研究。论文的主要创新性工作包括:  提出了面向生物图像大数据处理的并行计算框架LAMBDA。该框架根据一套完整的理论模型设计实现。并提出了“二维”并行优化策略,即从节点级与机群级两个维度进行加速优化。在节点级,框架使用将问题复杂度逐级降低的流水线设计来解决复杂的图像分析问题,同时配合多种加速技术,提高单节点的计算能力。在机群级,通过对流水线任务的局部性划分与流水线通信隔离,达到压缩节点间通信的目的,从而提高整个框架的处理性能。  提出了快速的高精度的大肠杆菌超氧炫检测算法。该算法是目前针对大肠杆菌超氧炫检测最全面的解决方案。该算法包含人工标记、基于规则与阈值建模和支持向量机检测三种方法。在基于规则与阈值建模的方法中,提出了大肠杆菌超氧炫标准形态的数学模型,在包含11383个超氧炫的29048个大肠杆菌中,检测精度为99.25%,而F值达到了0.727。支持向量机检测方法中,利用参数遍历分类法进行特征选择,训练的模型检测精度达到99.45%,F值为0.817。并利用MPI技术对支持向量机进行加速,获得了3.35的最大加速比。  提出了小鼠胚胎心脏重构算法及并行化流程。该流程实现了对于心脏12个小时发育过程的重构,并具有细胞检测与追踪、细胞分裂检测、世系建立等功能。为了提高数据吞吐率,该流程可以在节点级与机群级对流水线的功能模块进行并行。而在节点内部,通过协同使用多种加速优化技术,整个流水线获得了6.58倍的加速,以及2.67小时/TB的单任务理论吞吐率。
其他文献
随着互联网、物联网等行业数据规模的爆发式增长,企业在数据的处理和分析上正面临着全新的挑战。面对海量数据,传统的关系型数据库在数据的吞吐能力、分析效率和系统的可扩展性
随着计算机网络技术的发展及分布式计算的需求逐步升高,分布式应用蓬勃发展,逐步渗透到软件应用的各个领域。分布式构件技术是分布式应用开发的核心技术,目前主流的分布式构件技
随着众多技术的和人为的因素使得软件系统的开发环境日趋复杂化而难以管理,人们逐渐注意到了CASE技术在软件系统开发工程中的重要作用,而作为CASE技术的一项重要内容,软件配置的
随着七号信令系统应用规模的不断扩大,七号信令集中监测系统日益成为信令网维护的重要手段。在七号信令集中监测系统中,呼叫跟踪是其最重要的功能之一。呼叫跟踪的主要目的是为
当前,随着“科技强警”战略的实施和“金盾工程”的正式启动,计算机应用技术在各级公安机关迅速普及推广,警务督察工作的任务是对公安机关及其民警履行职责、行使职权和遵守纪律
该文的研究主要针对深圳市海博科技有限公司自主研制开发的新一代聚焦式放射治疗设备——超伽治疗系统(SGS:Super Gamma System).研究的目标是在现有硬件和软件的基础上,探讨
该文介绍了数据挖掘、半结构化数据、XML的相关概念和研究现状.给出了一种基于XML研究一般半结构化数据的方法.以标记有序树为半结构化数据的数据模型,从基于最右扩展枚举技
随着当前互联网技术的不断发展,网络结构的日益复杂化和异构化,使得原有的网络管理体系暴露出严重的不足,无法适应新的发展潮流。而中间件和分布式对象技术作为一个新兴的研究方
No.7信令网是电信网的神经中枢,是确保电信运营网络正常工作的支撑网络。由于No.7信令网的重要地位,对No.7信令网的高效、完整的监测一直是电信维护部门开发的热点课题之一。对
随着互联网及VoIP相关技术的发展,通过国际互联网络来传输语音数据包变得越来越具有可实现性。VoIP以其绝对的价格优势和业务扩展的灵活性,正对传统的公共电话网业务造成巨大