论文部分内容阅读
脑是人体最复杂也是最神秘的器官。脑的结构和功能的研究对理解大脑运转原理,揭示大脑奥秘具有重要的意义。神经环路是构成大脑神经功能的基本单元,在脑内进行信息的传递和处理。构成神经环路的神经元因功能不同,具有不同的形态、位置分布、以及投射的模式。其形态结构分布在多个脑区甚至全脑范围。因此,需要在全脑范围以单神经元分辨水平对神经环路进行描绘。随着标记技术和成像技术的发展,对小鼠全脑进行单神经元分辨水平成像已经成为现实,为神经环路的研究提供了重要的数据基础。然而,对全脑高分辨率成像所产生的数据高达数十TB乃至百TB,为脑图像的处理带来巨大的挑战,传统的脑图像处理方法面临着效率低下,难以处理如此大规模的数据等问题。针对脑图像处理中的大数据挑战,本文分别解决了海量数据存储和海量数据访问两个关键问题,建立了一个用于全脑显微光学成像的大数据处理软件平台。(1)海量图像数据存储系统和方法。实现了以Lustre集群文件系统为存储系统的PB级数据存储系统,为海量数据的存储提供了硬件基础。设计了基于tar包的原始数据归档方法,解决了成像产生的海量小文件难以存储和传输的问题。建立了一种三维体数据存储标准TDat数据格式,利用多级分辨率分块存储方式替代原有二维图像序列存储方式,开发了新颖的数据格式化算法用于通用图像格式向TDat格式的转换。TDat能够支持1PB的三维数据,相比同类方法在图像格式转换上具有最高32倍的性能优势。(2)海量图像数据访问方法。提出了稀疏数据调用和高通量数据调用两类海量数据访问模式。针对这两类访问模式,以TDat数据格式为基础,设计缓存机制减少数据访问过程中重复数据的读取,利用数据I/O并行化加速数据访问的效率,建立了基于缓存加速的ROI块并行访问、基于方向预测的缓存预加载访问、非重叠数据顺序访问和“瓦”数据连续访问四种访问方法。满足了不同脑图像处理应用对不同数据访问方式的需求。为利用TDat数据格式处理海量数据提供了访问手段。(3)TDat海量数据处理软件平台。以TDat数据存储标准、数据访问方法为基础,建立了全脑显微图像的大数据处理软件平台。整个平台采用模块化三层架构,能够兼容不同的计算平台和通用的图像处理软件,且具有良好的可扩展性。基于该平台开发了全脑三维图像刚性配准的方法,采用低级分辨的数据获取配准所需要的空间变换参数,利用高分辨率数据分块进行配准。该方法在仅有数GB内存消耗的情况下能快速对数TB的全脑图像进行配准。利用该平台开发了用于长程神经纤维交互式追踪的方法,结合Amira的纤维追踪模块和TDat数据存储格式进行分块追踪,并利用已追踪完成的神经纤维走势对需要调用的数据进行预测并加载,实现对TB级数据中跨越全脑范围的长程投射神经元的高效追踪。相比于传统方法需要消耗数十天的时间进行数据准备和追踪,本方法耗时仅一天之内。