论文部分内容阅读
21世纪是生命科学的时代,也是信息时代。随着生物学技术的不断提高和人类基因组计划的实施,生物数据呈指数增长,对这些海量生物数据的整合、共享、集成与分析具有重要的理论价值和实际意义。由于生物数据固有的复杂性以及存储方法、数据库结构、数据库表和属性以及数据条目的命名、访问方法等方面存在异构性,使传统的生物信息集成和整合遇到了巨大的困难和挑战。本文首先分析了现有生物数据集成方法及其存在不足,研究了元数据和生物学本体及其在生物信息集成中的作用,并在此基础上探讨了整合平台中公共元模型和本体库的建立,然后将传统的基于中介模式的数据集成方法和本体技术相结合,提出了分布式环境下基于元数据的生物信息集成框架(MOBIB),并对其中的关键模块元数据自动提取、转换和导入工具RSchemaETS进行了分析和设计。RSchemaETS实现了关系数据库元数据的自动提取、转换和导入,具有良好的可扩展性和可重用性,各模块之间实现了高内聚低耦合,使得实现其它的DBMS元数据自动提取、转换和导入变得非常简单。基于JavaCC的实现方法不仅可以简化系统实现,而且使实现者只用关心SQL语句的BNF范式中需要提取的元数据和处理逻辑,并且当RDBMS SQL语法修改后可以通过少量的修改即可,为工具的向后兼容提供了保证。最后结合生物学家的查询需求和本体查询语言特征,定义了MOBIB集成平台的查询语言,并对查询语言解释执行器的处理流程和系统结构进行了分析和讨论。MOBIB集成平台可以在异构分布的多数据源环境中回答用户提交的查询,而不用一个中心的数据仓库或一个通用的全局本体。基于元数据的集成方法把结构元数据和语义元数据应用于对多数据源查询处理的各个阶段,以求解决生物信息集成中存在的结构异构、语义异构、术语异构等问题。该方法具有较好的应用前景,通过引入相应领域的本体,可以应用于各个生物学领域的数据集成和整合中。目前,已经将该方法应用于“基于元数据的蛋白质组数据资源整合关键技术研究与应用平台开发”中,并引入Gene Ontology等生物学本体,解决蛋白质组数据资源整合中的异构问题。