论文部分内容阅读
随着2011年6月24日,美国总统奥巴马提出了“材料基因组计划”,在至今的将近4年时间里,国际国内的材料科学家都逐步认识到了“材料基因组计划”的重要性,相关的科研单位也在不断加大对于“材料基因组计划”的投入,材料科学正在迎来一个良好的发展机遇。 白宫科技政策办公室于2011年6月发布的与“材料基因组计划”相应的白皮书《具有全球竞争力的材料基因组计划》中提到了材料创新所需要的三个基础设施平台:计算工具平台、测试实验工具平台、数字化数据平台,其中数字化数据平台即信息学与数据库平台。“材料基因组计划”并不仅仅是提倡开发计算材料科学,而是结合实验、计算相关工具及数据库技术来促进新材料的设计与发现。本文研究的内容即结合材料计算的材料数据库系统。 在传统的材料数据库中,数据内容一般有如下来源:通过搜集国内外相关文献,整理归纳后录入数据库;进行材料科学实验,积累实验数据;通过计算软件进行材料计算,计算完成后人工整理结果文件,并将数据录入数据库。随着材料科学对加快新材料设计的需求日益增加以及计算机计算能力的不断加强,基于传统实验计算以及人工整理的方式建立数据库已经不能满足“数据密集型”科学研究时代对加快新材料研究的需求。传统的使用计算软件逐个化学结构、单次计算的方式,计算效率较低,科研人员难以快速大批量的进行材料计算,数据的产出具有较长的周期。 针对以上问题,本文开展了材料计算数据库生态系统的研发。材料计算数据库生态系统的核心理念在于,它不是一个单一、线性的材料数据库。首先数据库系统与高通量材料计算紧密关联,数据库中数据全部来自材料计算。其次整个计算数据库生态系统基于云计算的理念设计,用户可在数据库生态系统中定制个性化的材料数据库和计算环境,从而只需浏览器,便可以随时随地开展高通量材料计算并存储计算结果。计算环境支持用户批量提交计算任务,系统通过超算集群并行处理计算任务,计算生成的结果自动存入到数据库中,不需要人工干预。批量任务提交可以有效地提高科研人员材料计算效率,计算结果实时自动提取并存入数据库可以有效地降低人工成本。除此之外,系统数据库支持基于化学元素和化学表达式的灵活查询,用非常简洁的方式满足用户精确查询和宽泛查询的需求。数据共享在科学界一直是个难题,不同单位之间很难进行数据共享,本文借助材料计算、计算结果存储、数据查询一体化的平台优势,在材料数据共享方面进行了一定程度的探索。 综上所述,本文旨在打造一个基于高通量材料计算,包含环境定制、计算结果自动提取、灵活查询、环境共享等功能的材料计算数据库生态系统,以提高新材料的发现和设计效率。