生物数据整合若干技术的研究与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:gouridzmhuiyouren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生命科学研究蓬勃发展。各个生命科学领域产生了大量生物数据,形成了众多大规模的生物数据库。如何利用这些生物数据,进行高效的生命科学研究是生物信息学的主要工作之一,这离不开数据整合。如何有效地整合分布于各个异构数据库中的生物数据,为生物研究者搭建方便高效的查询分析平台,已成为当前生物信息学研究的热点。 生物数据的海量性、分散性、异构性、易变性、复杂性等特点,给整合工作带来了困难和巨大的挑战。人们必须考虑寻求一种强有力的工具,能够对各个异构生物数据源,在兼顾其现有配置与管理状况的条件下,实现高效集成。 本文基于生物数据库的研究现状,根据生物数据的特点,对生物数据整合技术进行了研究,参与开发了一个生物信息整合系统——BioDW,主要研究成果如下: (1)提出了一种基于GeneOntology的生物数据整合技术。该技术采用基因本体(GeneOntology)注释数据源中的基因和基因产物,建立各数据库术语之间的联系,使生物数据的整合建立在统一的语义基础上。 (2)针对数据仓库的整合方法,提出了一种半结构化的生物数据增量更新技术。该技术定义了“元树”、“元树类型”等结构,以半结构化的形式规范元数据,建立了一个集中式元数据仓储结构,能够动态适应数据源的变化,提高增量更新的效率。 (3)提出了一种度量GeneOntology术语间相似性的算法,实现了基于GeneOntology的语义相似性查找。该算法根据GeneOntology术语之间的语义路径以及信息量,计算它们的相似程度。基于此算法实现的语义相似性查找能够从语义角度推测基因产物功能的远近关系。 (4)将上述研究结果和算法应用于生物信息整合系统BioDW中。BioDW整合了GenBank、SWISSPROT、KEGG等多个数据源中的生物数据,提供了各种数据查询方法,为生物研究者搭建了高效的信息分析平台。
其他文献
基于校园网的学校内部各管理信息系统的数据共享和交换是学校信息化建设的重要工作。要从根本上解决学校信息系统集成中由于各个子系统的数据格式不一致,难以集成的问题,关键还
前缀立方是最近提出的一种数据立方结构,它利用前缀共享和基本单元技术,在浓缩数据立方的基础上进一步消除了数据小方内的前缀冗余,从而进一步减小了数据立方的尺寸。由于对
在本文中,我们研究了计算机网络通讯中一类重要问题,不相交路径问题.问题为:给出图G=(V,E)以及图中的两点s,t,我们要求从点s到点t的两条不相交路径(点不相交或者边不相交),并且满足
本文在对网络边界安全技术——防火墙技术进行深入调研的基础上,将主动防御的思想引入到防火墙的设计中,在深入研究并掌握防火墙技术、主动防御技术、入侵检测技术的同时,综合了
本文结合当前城市测量技术的发展现状和计算机网络技术的高速发展,给出利用现有技术来建立城市测量技术的网络平台的研究成果。该平台具有测量数据采集、处理、传输等功能。通
计算机安全风险分析随着计算机系统安全问题的日益严重而受到广泛重视。因为其处理对象的庞大和复杂,风险分析需要自动化的方法实现以保证其实时性。风险分析方法的发展目前
随着科技和经济的高速发展,信息技术带给人类的影响日益扩大,尤其是网络的发展使计算机的应用日益普及,同时也使得信息的安全问题日渐突出而且情况也越来越复杂。 信息安全是
入侵活动的日益猖獗使得人们对网络安全问题越来越重视。防火墙和入侵检测系统等安全产品的引入在一定程度上保护了网络的安全性。但是,网络安全技术发展的同时,入侵技术也在
软构件技术是进行软件复用的高级阶段,而分布式实时系统的成熟又必然和精确的实时构件模型联系在一起。在当前分布式实时软件工程的发展中,实时构件库的管理成为一个不可避免
网格计算已经成为下一代并行和分布式计算,它聚集了大量分散的异构资源来解决科学、工程和经济上大规模的并行任务。在网格环境中,当一些计算任务对资源有很高的要求,需要同步访