论文部分内容阅读
随着人类基因组计划(简称为HGP)在世界范围内的广泛开展产生了大量有待于分析与处理的生物学数据(DNA、RNA及蛋白质数据等),借助计算机技术对这些数据进行组织与处理是计算机在生物学领域的重要研究方向。但由于这些数据的来源各不相同,如何从各异构数据库中查询到研究工作所需要的数据信息,是生物数据分析处理研究过程中所必须解决的一个问题。针对目前生物数据组织与处理中存在的生物信息数据的数据异构问题,本文构建了一个生物公共数据模型,应用该模型建立了一个基于XML的生物数据集成系统,目的是屏蔽生物信息数据的异构性,给用户提供一个统一的应用平台,为生物信息二级数据库的构建提供基本条件。XML作为一种元语言,现在已成为数据表示和数据交换的标准。XML具有强大的数据描述能力,是结构化的描述语言,采用树形存储结构,支持深层次的嵌套表达,非常适合统一描述结构复杂的生物数据。针对生物数据之间存在的数据异构问题,本文构建了一个基于XML的生物数据集成系统,实现生物数据的集成。本文介绍了XML语言,生物数据的特点、存储和分类方式,分析了数据集成的几种常用方法,对XML和关系数据库的相互转化进行了比较,给出了解决生物数据异构的方法。论文重点给出了基于XML的生物数据异构数据库模式集成系统的设计思路,包括:系统的总体设计、系统的UI设计、系统的关键技术,并实现了基于XML的生物数据库集成系统。具体内容包括:分析生物数据整合中语法异构和语义异构的问题,并且利用XML强大的数据描述能力,易于表达结构化数据以及半结构化数据,适合做中间格式等特点,解决了语法异构问题。论文首先对生物数据及其特点进行了介绍,在其基础上提出了解决的办法,构建了一个基于XML的生物数据集成系统,主要包括:数据源层的异构数据库,数据查询层的数据包装器,数据查询分解器,XML数据封装器和Web服务器。