论文部分内容阅读
进入二十一世纪后,生命科学获得了飞速的发展。而成像技术的迅猛发展带来了生物图像分析需求的不断提高。本论文主要围绕生物图像的大数据分析平台以及相关算法展开研究。整个分析平台将高性能机群的计算能力与机器学习算法的分析能力结合在一起,从机群级与节点级两个维度进行并行优化,并通过简单易用的接口,可以快速高效的搭建高性能生物图像分析流水线。 本论文利用该分析平台对两个不同领域的生物图像分析问题进行研究。一个是大肠杆菌超氧炫检测问题,属于生物信号检测领域;另一个是小鼠胚胎心脏重构问题,属于胚胎发育学领域。 本论文围绕生物图像的大数据分析平台、处理算法以及相关应用展开研究。论文的主要创新性工作包括: 提出了面向生物图像大数据处理的并行计算框架LAMBDA。该框架根据一套完整的理论模型设计实现。并提出了“二维”并行优化策略,即从节点级与机群级两个维度进行加速优化。在节点级,框架使用将问题复杂度逐级降低的流水线设计来解决复杂的图像分析问题,同时配合多种加速技术,提高单节点的计算能力。在机群级,通过对流水线任务的局部性划分与流水线通信隔离,达到压缩节点间通信的目的,从而提高整个框架的处理性能。 提出了快速的高精度的大肠杆菌超氧炫检测算法。该算法是目前针对大肠杆菌超氧炫检测最全面的解决方案。该算法包含人工标记、基于规则与阈值建模和支持向量机检测三种方法。在基于规则与阈值建模的方法中,提出了大肠杆菌超氧炫标准形态的数学模型,在包含11383个超氧炫的29048个大肠杆菌中,检测精度为99.25%,而F值达到了0.727。支持向量机检测方法中,利用参数遍历分类法进行特征选择,训练的模型检测精度达到99.45%,F值为0.817。并利用MPI技术对支持向量机进行加速,获得了3.35的最大加速比。 提出了小鼠胚胎心脏重构算法及并行化流程。该流程实现了对于心脏12个小时发育过程的重构,并具有细胞检测与追踪、细胞分裂检测、世系建立等功能。为了提高数据吞吐率,该流程可以在节点级与机群级对流水线的功能模块进行并行。而在节点内部,通过协同使用多种加速优化技术,整个流水线获得了6.58倍的加速,以及2.67小时/TB的单任务理论吞吐率。