论文部分内容阅读
近年来,生命科学研究蓬勃发展。各个生命科学领域产生了大量生物数据,形成了众多大规模的生物数据库。如何利用这些生物数据,进行高效的生命科学研究是生物信息学的主要工作之一,这离不开数据整合。如何有效地整合分布于各个异构数据库中的生物数据,为生物研究者搭建方便高效的查询分析平台,已成为当前生物信息学研究的热点。
生物数据的海量性、分散性、异构性、易变性、复杂性等特点,给整合工作带来了困难和巨大的挑战。人们必须考虑寻求一种强有力的工具,能够对各个异构生物数据源,在兼顾其现有配置与管理状况的条件下,实现高效集成。
本文基于生物数据库的研究现状,根据生物数据的特点,对生物数据整合技术进行了研究,参与开发了一个生物信息整合系统——BioDW,主要研究成果如下:
(1)提出了一种基于GeneOntology的生物数据整合技术。该技术采用基因本体(GeneOntology)注释数据源中的基因和基因产物,建立各数据库术语之间的联系,使生物数据的整合建立在统一的语义基础上。
(2)针对数据仓库的整合方法,提出了一种半结构化的生物数据增量更新技术。该技术定义了“元树”、“元树类型”等结构,以半结构化的形式规范元数据,建立了一个集中式元数据仓储结构,能够动态适应数据源的变化,提高增量更新的效率。
(3)提出了一种度量GeneOntology术语间相似性的算法,实现了基于GeneOntology的语义相似性查找。该算法根据GeneOntology术语之间的语义路径以及信息量,计算它们的相似程度。基于此算法实现的语义相似性查找能够从语义角度推测基因产物功能的远近关系。
(4)将上述研究结果和算法应用于生物信息整合系统BioDW中。BioDW整合了GenBank、SWISSPROT、KEGG等多个数据源中的生物数据,提供了各种数据查询方法,为生物研究者搭建了高效的信息分析平台。