论文部分内容阅读
托卡马克是研究磁约束聚变的复杂大型实验装置,由众多不同的子系统组成。其实验过程中会产生大量实验数据,研究人员需要对这些数据进行分析,以实现理论验证和进一步的实验改进。随着托卡马克实验向长脉冲发展和数据采集技术日益提高,实验过程中产生的数据增长地越来越快。对于海量的实验数据,不仅要求数据存储与管理系统能够实现快速保存,还要能够给科研人员提供高效的数据查找与访问功能。本研究正是基于此背景,对J-TEXT数据存储与采集系统进行了改进,在MDSplus数据管理、备份、D-TACQ采集等方面进行了新的设计与优化,并研发出了针对未来长脉冲实验海量数据的J-TEXT云存储数据库(J-TEXT Cloud Database,以下简称JCDB)。 本研究首先设计并开发了MDSplus数据管理系统,针对MDSPlus管理功能过于简单的问题,实现了数据的批量管理,并提供高效的查询手段。该系统通过MDSplus与SQL Server的结合使用,能够把MDSplus的所有元数据直接导入到SQL Server中。在此基础上,开发了JTEXT-Traverser软件,使数据以图形可视化的方式呈现,便于用户处理,并能将处理结果同步到MDSplus和SQL Server中。除此之外,在网络改造的基础上,利用Rsync开源软件实现了数据的增量备份,克服了原有以磁带机为基础的备份系统容量小,备份、恢复时间长的缺点。同时,实验过程中发现D-TACQ采集设备在复杂实验环境中数据容易上传失败。为了改善这一状况开发了D-TACQ运行支撑软件,实现了对J-TEXT所有D-TACQ的状态监控、数据检测、发现问题、自动重传的一套功能,提高了采集卡的可用性。 对于未来长脉冲聚变实验中存储系统面临的持续海量数据写入的挑战,本研究创新的采用分布式集群数据库技术进行应对。本文深入研究了现代分布式文件系统以及分布式数据库技术,设计了针对大型科学实验装置的数据存储管理系统JCDB。提出了数据分离成元数据和科学数据的思路,并率先给出了基于MongoDB的元数据管理方案,此方案是ITERDB计划采用技术的实际应用实现。通过数据模型、接口、插件等设计,实现了元数据的高效管理、访问,使系统可以灵活、模块化的添加和删除功能。针对科学数据,本研究设计了相应的存储引擎,通过迭代改进的方法,对存储引擎进行不断优化,最终给出了基于索引的CassandraIndex模型。它在4节点集群测试中,读写性能分别达到了337MB/s和280MB/s,并通过与GlusterFS和MDSplus对比,验证了基于NoSQL数据库存储引擎的巨大潜力,和为长脉冲聚变实验提供存储管理服务的可能性,为CFETR的存储管理设计提供参考。最后针对集群部署困难的问题,给出了集群的自动化部署方案,实现了MongoDB集群和Cassandra集群的自动化部署。