论文部分内容阅读
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。发展至今,生物信息学的主要任务已经从获取生物数据转变为利用已有的各种生物数据获取、验证和发掘隐藏在数据背后的生物知识和规律。中国科学院微生物研究所网络信息中心多年来一直开展生物信息学相关课题研究,已经拥有大量的数据资源。如何充分利用这些数据资源,为生物信息研究人员提供生物计算服务就成了一个重要课题。
本文就根据以上需求提出建立一个主要面向生物信息学研究人员的生物信息学计算平台。平台集成微生物研究中所需要的常用计算分析工具,结合公共生物数据库和用户自有数据,利用现有的硬件资源,旨在为生物信息学研究人员提供高效、准确的生物计算和分析服务。
本文首先从系统角度阐述平台的体系结构及主要功能模块,重点阐述Web平台的设计以及在集群环境中整个系统的架构和计算任务调度算法设计。Web平台封装了以Emboss为基础的多种生物信息学计算分析工具,将公共数据库和用户自有数据相结合,为生物研究人员提供计算服务。授权用户登陆平台后,可以提交计算任务和管理自有数据,平台实现了用户自有的任务中心和数据中心。
为了提高计算效率,充分利用多服务器计算资源,本文定义了用户服务满意率的概念,提出了综合用户权值,计算任务类别,任务添加时间等因子的服务器主动调度算法。经验证,该算法可以有效地提高用户服务满意率。除此之外,考虑到系统的性能,本文阐述了提高客户端(使用AJAX和jQuery)和服务器端(使用MySQL索引)效率的策略。
通过课题的研究,本主要取得了以下成果:
1.提出一个面向生物信息学研究人员的数据密集型计算平台的架构。该架构有四层架构,包括数据服务层,系统服务层,应用服务层和用户接口层。贯穿于整个架构的是系统的安全与优化。这种架构实现了功能和数据的分离,低耦合的设计让系统具有很好的扩展性。
2.提出了一个基于用户权重的服务器任务主动调动算法,提高了用户服务满意率。根据用户提交的任务截止时间,综合计算历史、用户的权值和任务添加时间等多因子,设计了一个基于用户期望的服务器主动调度算法。定义了用户平均满意率,即“用户期望完成时间”与“任务实际完成时间”的比值。经验证,该算法对提高用户平均满意率有明显的效果。
3.实现了生物信息学数据密集型计算平台,并整合了以Emboss为基础的多种生物信息学计算分析工具。该系统封装了包括Emboss工具包在内的数百种计算工具。授权用户可以通过平台在线提交计算任务,监控任务,获取结果等。管理员可以监控任务,人员,服务器等状态。为生物领域的科学研究者提供了一个集数据、计算模型与计算资源为一体的生物计算分析平台。
整个平台基本实现了预期的目标,实现了生物数据的存储、展示、计算分析等功能,为生物领域的科学研究者提供了一个集数据、计算模型与计算资源为一体的生物计算分析平台。