相互作用组异构数据集成研究

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:Mijieer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
后基因组(post-genome)生物医学的一个关键目标就是对活细胞内的所有分子及其相互间的作用进行全面和系统地研究。理解细胞系统的一个关键步骤是对DNA、RNA、蛋白质和化学小分子等相关的物理相互作用网络进行映射,从而对特定的物种形成一个尽可能完整和准确的相互作用组网络(interactome network)。研究者们采用高通量技术的实验,基于计算的预测,以及文献挖掘等方法得到了大量的、有价值的相互作用组数据。同时,为了管理和利用这些数据,研究者们建立了许多相互作用组数据库。但是,现有的相互作用组数据库相互隔离,形成了所谓的“信息孤岛”,不能实现数据共享(data sharing)和更有效的利用。为了更好地管理和更有效地利用现有的相互作用组数据,需要将这些相互独立的数据库有机地集成在一起。这对于增加相互作用组研究的整体知识水平,以及对该领域更深入、更全面的理解是十分重要的。数据集成(data integration)已经成为相互作用组研究的重要方向之一。本研究建立了相互作用组数据仓库InteractomeDW。InteractomeDW包括相互作用组数据库集合,生物实体映射数据库,生物学本体和受控词表数据库集合,以及生物学注释数据库等四大部分。InteractomeDW存储了62779056条相互作用记录,涉及51个相互作用组数据源,9个辅助数据源,5个相互作用组数据类型(蛋白质相互作用,结构域相互作用,分子间相互作用,复合物和通路),2426个物种,170个相互作用鉴定方法,44个相互作用类型,以及85212篇参考文献。就我们所知,InteractomeDW比现有相关研究建立的数据仓库的规模都要大。本研究首次提出融合了基于数据仓库(data warehouse)和基于中介(mediation)这两种方法的新型异构数据集成方法WM。WM方法采用数据仓库方式进行数据管理,以确保数据源的可用性、提高系统查询效率和数据质量。待集成的所有相互作用组数据库都存储在本地服务器上,这样可以最大限度地确保数据源的可用性。同时,本地存储策略显著提高了系统的查询效率和响应能力。相互作用组数据仓库提供的数据清洗功能可以检测、修正或删除所有相互作用组数据库中已损坏、不完整或不准确的脏数据,进而提高所集成数据的质量。WM方法采用中介方式实现具体的数据集成工作,以提高系统的扩展性和可维护性。在WM方法中,可以方便地通过向中介器模块的映射关系表注册新的数据源,并构建相应包装器的方式实现数据集成范围的扩展。这种扩展方式对数据集成系统的其他部分没有任何影响,实现了可插拔式的数据集成。这种低耦合度、灵活的集成方式使得数据集成系统的可维护性大大加强。WM方法结合了上述两种数据集成方法的优点,很好地兼顾了数据集成的效率和灵活性,为相互作用组数据集成提供了基础架构和解决方案。本研究利用WM方法成功地构建了一个可靠性高、数据质量高、查询效率高和可扩展性强的基于网络的相互作用组异构数据集成系统IMbase。建立IMbase的目的就是让生物学家可以透明地访问相互作用组异构数据库,更有效地利用其中的数据。IMbase是一个共享和利用相互作用组数据的基础平台,为生物学家提供了相互作用组数据集成、相互作用网络分析和推理,以及相应的Web Service开发接口等多种功能,进而可以帮助生物学家生成相互作用假说和实现知识发现(knowledge discovery)。IMbase对相互作用组相关数据进行了垂直集成。这样做可以通过及时总结和整理现有数据,实现相互作用组研究领域内更广泛的数据共享,进而提高相互作用组研究领域的总体知识水平。以相互作用组数据的垂直集成为基础,可以进一步实现跨领域和学科数据的水平集成,以实现更有价值的知识发现。就我们所知,IMbase是现有数据规模最大,功能最为完善的相互作用组数据集成系统。用户可以通过网址http://122.70.220.98/imbase/index.gr免费访问IMbase。本研究将IMbase系统应用于小鼠神经管缺陷(NTDs)的研究。以表达谱芯片筛选出的差异表达基因为诱饵,利用IMbase获得与这些差异表达基囚有相互作用的生物实体对应的基因,并构建相应的相互作用网络。本研究建立了已知小鼠NTDs候选基因数据库MouseNTDs。通过MouseNTDs数据库对潜在NTDs候选基因进行筛选,以确定已被认定和尚未被认定为小鼠NTDs候选基因的潜在NTDs候选基因。最后,通过研究这些筛选出的潜在NTDs候选基因的注释信息和通路信息,本研究提出了小鼠NTDs候选基因假说,为进一步的分子生物学实验提供可能的方向。本研究的主要创新之处在于:1.提出了一种新的异构数据集成的方法WM。WM方法结合了基于数据仓库和基于中介这两种数据集成方法的优点,很好地兼顾了数据集成的效率和灵活性,为相互作用组异构数据集成提供了基础架构和解决方案。2.建立了一个相互作用组数据仓库InteractomeDW。InteractomeDW共存储了超过62百万(62 779 056)条相互作用记录,涉及51个相互作用组数据源,9个辅助数据源,5个相互作用组数据类型(蛋白质相互作用,结构域相互作用,分子间相互作用,复合物和通路),2 426个物种,170个相互作用鉴定方法,44个相互作用类型,以及85212篇参考文献。3.建立了一个生物实体映射数据库BEM。BEM是由5个相关数据源集成而来,共存储了超过1.8亿(180 328 282)条非冗余的映射记录,涉及4个实体类型(基因,蛋白质,小分子物质和化合物),可以实现90个常用生物医学数据库之间的实体映射。4.利用WM方法,构建了一个基于网络的相互作用组异构数据集成系统IMbase。IMbase是一个共享和利用相互作用组数据的计算平台,提供相互作用组数据集成、相互作用网络分析和推理、生物实体映射等多种服务,可以帮助研究者生成相互作用假说和实现知识发现。5.构建的异构数据集成系统IMbase不但提供了基于网络应用程序的访问方式,而且还提供了基于Web Service的访问方式,以便为相关软件开发者提供编程接口,实现软件复用和可互操作性。6.将异构数据集成系统IMbase用于小鼠神经管缺陷(NTDs)的研究,通过构建和分析潜在的小鼠NTDs候选基因相关的相互作用网络,提出小鼠NTDs候选基因的假说,为进一步的分子生物学实验提供参考方向。
其他文献
当今时代,我国工程行业迅猛发展,各地工程项目建设的功能性、美观性要求越来越高,在一些高大空间建筑工程中运用玻璃穹顶可以提高建筑内部光照效果和异域艺术观赏性。论文就
根据天绘一号卫星三线阵传感器成像原理,构建了天绘一号卫星影像的严格成像模型。通过对卫星姿轨数据分析,提出利用一次线性函数拟合姿态数据,以抵消姿态数据中的高频和低频
近年来,我国水土保持监督管理工作取得了一定成效,但仍旧面临水土保持监测新发展、新局面,需要针对水土保持监督性监测工作中存在的问题采取有效措施,对各类违规、违法情况加
采用生物质发电对古巴具有较大的现实意义,生物质发电的关键问题就是燃料输送系统的可靠性。根据多年来的生物质电厂设计研究的经验,针对古巴生物质燃料资源特性进行分析,设
  气单胞菌是冷藏凡纳滨对虾的重要腐败菌,为更好地控制气单胞菌引起的腐败变质,笔者分析了气单胞菌的群体感应特性.结果 表明,在腐败的凡纳滨对虾中成功分离出了气单胞菌A
以解纤维梭菌( Clostridium cellulolyticum)和热纤梭菌( Clostridium thermocellum)为代表的产纤维小体梭菌可以直接完成从木质纤维素原料到乙醇的生物转化,是用于通过整合生物加
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
以石家庄市轨道交通2号线一期工程04标石家庄站—东三教站区间工程项目为依托,对盾构机地下对接及洞内拆解施工技术进行了实践及研究,取得了较好的效果。
阅读的图式理论认为:话语本身是无意义的、它只是为我们指路、阅读理解是在适当的图式中填充空档、以便满足本文和图式的限制。本文从下述五个方面展开对图式问题的讨论:图式概
药品是关系人民生命健康的特殊产品。制药企业通过实施GMP管理,可以实现对药品生产全过程的规范管理,确保药企自身的各项行为能够遵守相应的行业准则和行为规范,从而确保大众用