面向全基因组关联分析的海量数据多任务并行数据框架研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:whp71518255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二代测序相比较它的上一代,显著的特征是测序的通量高,因此也叫高通量测序,它使得成本成倍地降低,基因数据量呈几何式的翻倍增长。世界范围内,百万人基因组计划的相继推出,十万人,甚至百万人规模的全基因组关联研究有望在常见病和复杂性状的研究上取得突破。基因数据分析面临着如何高效组织和访问PB甚至ZB级数据的问题,海量数据的基因大数据分析遭遇了存储墙的问题,目前并行访问这些PB级的基因数据,存在着比较严重的性能瓶颈,这其中存在着数据存放和计算作业访问方式之间的矛盾,大数据量的数据访问带来的网络带宽和内存带宽压力,海量数目的文件读写带来的元数据拥堵等。本文提出面向全基因组关联分析的海量数据并行框架,它基于在高性能环境中有多年成熟使用经验的HDF5的数据格式,支持关联分析的多任务并行,使用了数据分片、数据超转置、数据过滤、数据高通量编码压缩以及结合天河二号环境的数据对齐、聚合访问及缓存优化等技术,缓解了计算作业访问数据的局部性差的矛盾,避免了计算作业并行访问时的数据竞争,并行文件系统元数据服务器(MDS)的压力得到释放。紧贴基因关联分析类计算作业的特点开展研究,分析了数据特性,运用数据过滤、类型转换、列存储压缩等减少了数据量和访存带宽方面的开销,而且这些处理的开销在生产环境中都可以隐藏在数据由生产环节到数据分析环节的传输开销中,而HDF5的虚拟数据集特性允许我们将不同批次数据处理后存储在不同文件中,而计算作业同时又能以连续数据集的视角来访问这些文件。本文数据框架Gwasin中的数据分片和数据超转置是对VariantDB中数据标注过滤思想的延伸,VariantDB通过建立数据域的标注,然后利用数据库对标注进行查询和过滤,减少计算作业的数据访问量,本文基于HDF5灵活性的特点,实现了并行任务作业的数据重组织,重组织后计算作业连续访问与计算直接相关的数据。数据块转置将一个基因文件中,与单个计算相关的数据块看作是矩阵中的一个元素,对这个超大矩阵进行转置操作,实现同一计算作业的连续聚合,提高了访问数据访问连续性,并将多个文件的数据组织在HDF5的一个数据集中,这样由于HDF5的自述性,即HDF5中数据对象的元数据存储在HDF5内部,因此,降低了对并行文件系统的元数据访问,从而缓解了并行文件系统在处理元数据时的压力。本文同时结合基因数据分析计算任务特点对基因数据进行了数据过滤和高通量编码压缩操作,将与计算作业无关的数据在数据预处理阶段清洗掉,能够提高数据密度,减轻网络和内存带宽压力,结果显示数据过滤能实现51.8倍的数据减少效果,结合数据编码压缩能实现579倍的减少效果。结合天河二号的优化,运用的是HDF5在Lustre系统上的调优方法,改变HDF5库对存放数据对象的特性设置,对数据集进行在分块对齐、压缩、聚合访问和元数据缓存挤出等方面的设置,实现了并行IO的同时,降低了与IO服务器交互的计算节点数量,减少了数据访问的拥塞,也提高了元数据的处理效率,计算作业在提高扩展性的同时,数据访问速度提升了10倍以上。
其他文献
利用PULSE19装置和TR-PIV装置构建了发电机、塔架加速度与风轮尾迹发展的同步监测系统,针对直径1.4 m的小型水平轴风力机振动特性及叶尖附近湍流涡旋进行了测试与分析,证实了
随着中国信息化、网络化、数据化的高速发展,数据中心正处于快速建设的阶段。该文以稳定和节能作为数据中心建设运营结合南京市某数据中心项目,阐述空调系统作为数据中心重要
通过对知识、知识管理、大学生知识管理相关涵义的阐述,提出了实施大学生知识管理的必要性。从知识的获取、知识的分类与存储、知识的交流和共享、知识的更新与创新4个方面分
深基坑土方开挖是土木工程当中的常见施工技术,随着近年来各种建设工程的增多,土木工程当中的施工技术应用也在不断增多和完善,而深基坑土方开挖技术则是土木工程中的常见技
盘肠纹作为最为古老且沿用至今的吉祥纹样,有着其独特的艺术魅力。本文以探究盘肠纹的来源及固有特点及,观其在清代女性服饰这一近代化的传统服饰中的运用形式,旨在寻求传承
作为近代上海两大经济群体,同业公会与上海总商会、市商会的关系发轫于清末民初。因组织功能和社会角色不同,在各式政治、经济、社会因素的侵染下,民国年间两者的关系变化颇
本文介绍了电动车和CAN总线的发展,CAN协议设计和虚拟网络仿真的整个流程。并根据电动车的功能需求确立了电动车高速驱动网络使用CAN高速网络,低速控制通信使用LIN总线的拓扑
《那儿》这篇小说以其对工人阶级立场的新的敏感性在当前小说创作中显得非常特别,论文即以此为中心力图分析这篇小说的三个特点:阶级性、严肃性和模糊性。论文认为,曹征路在
8月上旬我参加一场足球赛后,队员们坐在场边聊起来,话题是“传统媒体人转型创业靠不靠谱”。