面向蛋白质组学的基于数据世系的工作流匹配和发现研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:haoliangli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组学数据分析是一个复杂的、多阶段的处理流程,计算机支持的科学工作流技术的应用可以实现不同阶段间的数据平滑处理以及易于数据的组织管理,极大地促进了蛋白质组学领域内的研究发现。随着蛋白质组学数据分析技术的发展,越来越多的数据分析工具开始呈现。研究人员在面临更多选择的同时,也将面临流程创建复杂度高的问题,具体体现在合适工具的选择,数据分析流程执行时的参数调优两个方面。如何降低数据分析流程创建时的复杂度,从而让研究人员更多地将时间和精力放在专业问题的解决上是当前科学工作流在蛋白质组学数据分析领域应用中面临的一个重要问题。目前对科学工作流的研究主要专注于工作流支持的多样化服务整合、工作流表示和工作流管理;对数据世系(Data Provenance)的研究工作也主要是注重于数据世系的建模、存储和查询等。利用数据世系实现工作流重用,并以此来降低工作流创建的复杂度方面的研究工作还比较少。围绕上述研究问题,论文开展了如下创新性研究工作:1.分析了蛋白质组学数据分析流程的特点,依据这些特点使用基于任务的科学工作流模型来描述蛋白质组学数据分析任务,并结合实际要求设计了相应的数据世系模型;2.以数据世系支持的工作流重用为基础,设计了基于数据世系的工作流匹配和发现处理流程,并基于此处理流程设计了对应的系统框架结构,实现了数据分析工作流和数据世系信息的结构化表示、存储和管理;3.设计并实现了基于数据世系的工作流匹配和发现算法,并对其性能进行了测试。基于上述工作,实现了一个基于数据世系的支持工作流匹配和发现的原型系统,并作为子系统在国家863项目CoPExplorer平台中得到实施和应用。试用单位反馈,该系统可以有效地降低平台中创建数据分析流程的复杂度,提高了蛋白质组学数据分析研究的效率。
其他文献
基于断层数据的三维重构是三维数据场可视化技术的主要研究内容,重构物体的三维模型也是分析、仿真的前提,本文以此为背景,对断层数据的三维重建及其相关技术进行研究,主要包括轮
本文深入研究了专家系统的工作原理、发展方向和Web Services技术的最新发展、应用成果.并对现有的三种集成Web技术的专家系统结构模型进行分析对比,系统地论证了使用Web Ser
VRML是Internet上标准的三维文件格式。由于VRML文件格式很复杂,对于普通的非专业用户(比如刑侦人员)来说,直接通过编辑文本来书写文件创建VRML场景是很困难的。同时,案件现场的
机器人学是一门结合理论、设计、制造和应用的科学或技术研究;其目的是使机器人可应用于完全自行控制的工作中。机器人路径规划在机器人学中起到重要作用。 快速扩展随机树
实时系统的模型检验方法是一种保证计算机实时系统安全性和可靠性的严格的形式化方法,随着计算机科学的发展,这种方法已经被广泛地接受和使用。由于模型检验方法在对系统建模时
随着计算机和网络的发展,越来越多的嵌入式设备接入了互联网,计算资源的共享跨越了空间和时间的限制,信息安全的问题显得越来越重要.操作系统是嵌入式系统的核心,如果缺乏这
当前,随着技术的进步,越来越多的用户可以接触到网络,但是随之而来,网络安全问题也越来越让人关注,黑客可以不经授权随意进入网路并进行破坏。本文在此提出一种解决网络安全问题的
生物识别技术是近几年来热门研究课题之一,该技术是一门多学科交叉的技术,包括生物学、医学、计算机科学、电子学等。虹膜识别技术是其中极有潜力的生物识别技术,由于其具有不须
铁路是一个庞大复杂的多部门多工种组成的运输企业。无论是新建的一条铁路还是复杂的铁路网在运营之前,都要经过严格的模拟测试、进行大量的数据分析、验证为其设计的列车运行
流媒体在Internet上的应用已非常广泛,在商业领域上的讲座、培训等方面的应用成为了新的关注点。为开展企业新的业务增值点,新新彩印有限公司决定在原有的网站提供免费开放的讲