论文部分内容阅读
作为当前应用最广泛的生物本体,截至2007年8月,基因本体中共包含了大约23,700 条术语,对约20个生物数据库中超过1600 万条的基因和基因产物进行注释。
在语义网应用领域,基因本体协会提供了一个RDF-XML格式文件?(http://archive.Geneontology.org/latest-full/go_200708-assocdb.rdf-xml.gz)。然而该文件存在以下缺点,无法提供复杂的语义查询和推理服务:1)基因本体的三个子本体间是相互孤立的,缺乏必要的跨本体语义联系。2) 文件以基因本体术语为中心进行组织,所有的信息都存放在一个单独的文件中。3) 文件中缺乏对GOSlim的支持。
本文中我们提出了一个语义网模型GORouter。该模型主要论证了如何利用多种基于RDF规范的语义网技术和工具对原始资源重新组织,为用户提供复杂的有关基因本体及其注释数据的语义查询和推理服务。
我们对基因本体协会提供的异构原始数据重新进行编码,构建了一系列的RDF数据模块。GORouter模型中每个RDF模块由两个部分组成:元数据部分采用RSS技术进行标识、数据部分采用LSID 技术进行全球统一命名。
通过采用GLUE系统,我们在三个独立的基因子本体间建立了一对一类型的本体映射关系。为了提高映射精确度,GLUE系统采用“放宽标记”技术获得在给定领域约束和先验知识的条件下最佳的映射配置方案。
我们采用Oracle NDM 作为RDF 存储容器,通过调用SDO_RDF_MATCH 表函数无缝的将RDF 查询结果与传统的关系型数据结合起来。最终,GORouter模型的规模被最小化,那些不直接和语义推理相关的数据将被存储在传统的关系数据表中。
我们相信该解决方案能够部分克服传统语义网应用程序的性能瓶颈问题。
GORouter模型及其应用程序支持Apache 2.0 开放协议,研究人员可以通过访问http://www.scbit.org/gorouter/来获得最新数据和服务。