论文部分内容阅读
随着人类基因组计划的完成以及分子生物学等相关学科的发展,基因组学的研究重心开始从揭示生命的所有遗传信息转移到分子水平功能的研究上。生物信息学的研究重心也随之由基因组序列转移到序列生物学意义的研究上。在后基因组时代,生物信息学主要研究基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。由芯片技术产生的基因表达数据包含了丰富的生物过程信息,这些信息在人类疾病相关研究中有着重要的作用,基因表达与基因功能相结合也成为研究基因调控机制的一个重要手段。如何有效地分析利用这些数据成为生物信息学研究的中心任务。为了推动基因组学的研究,我们实验室建立了基因表达调控信息集成数据库系统(GRI)。目前GRI系统的数据主要是以基因调控信息为主;GRI系统提供了基因调控信息复合查询工具和基因相关信息下载工具。为了更好地研究基因的功能,为相关领域的科研工作者提供数据挖掘和分析的平台,本文将基因表达数据集成到GRI系统中,实现了基因表达数据和基因调控数据的有机结合并提供了相关的工具。基因表达信息主要包括:基因表达数据、基因表达数据的实验信息、基因表达数据对应的探针信息,这些数据之间互相关联,形成有机的整体。本文在研究了GEO、ArrayExpress等国际知名的基因表达数据库和现有GRI系统的基础上,完成了基因表达数据库的需求分析与设计,实现了对基因表达信息的集成,使之与GRI系统中的基因调控信息有机地融合到一起。本文实现了GRI系统中基因调控信息的智能更新;完成了基因表达数据库的设计,表达数据的获取、分析和集成;实现了基因表达数据的可视化工作以及基因表达数据相关信息的查询,为用户提供了友好的查询界面。在完成GRI系统表达数据库设计之后,对获取的数据进行分析,提取出基因表达相关的信息并集成到系统中。这是一项复杂的工作,因此我们设计了基因表达数据分析集成程序,实现了基因表达信息自动分析处理。同时,为了保证GRI系统的数据及时更新,我们采用智能代理技术,编写了程序,初步实现了基因调控信息地更新。在GRI系统现有查询服务的基础上,我们将基因表达信息查询服务与现有的基因调控信息查询服务有机地结合在一起,实现了基因调控信息和基因表达信息之间的关联查询。同时,我们还详细分析了国际知名网站可视化的设计。结合实际情况,采用了Servlet +Applet可视化方法,以柱状图和曲线图两种显示方式实现了基因表达数据的可视化,使用户对数据库所提供的信息有一个直观的理解。用户可以下载自己感兴趣的信息作进一步地分析。GRI系统是一个自主开发研制的基因表达调控信息数据库系统,它不是单纯的国外数据库的镜像,而是一个能够兼容不同数据,可以从不同数据源自动下载和更新数据的集成系统。它有机地将基因调控信息和表达信息融合在一起,为科研人员提供了一个很好研究的平台。GRI系统采用了先进的Oracle以及Java的相关技术,具有很好的性能以及跨平台能力;它友好的界面为用户提供了不同数据间的关系查询,为进一步的分析奠定了良好的基础。我们希望,GRI系统能成为生物信息学相关领域的研究人员的有力工具。目前GRI数据库系统已经初具规模并进入运行阶段。