生物信息学数据密集型计算平台的设计与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:huangom444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。发展至今,生物信息学的主要任务已经从获取生物数据转变为利用已有的各种生物数据获取、验证和发掘隐藏在数据背后的生物知识和规律。中国科学院微生物研究所网络信息中心多年来一直开展生物信息学相关课题研究,已经拥有大量的数据资源。如何充分利用这些数据资源,为生物信息研究人员提供生物计算服务就成了一个重要课题。   本文就根据以上需求提出建立一个主要面向生物信息学研究人员的生物信息学计算平台。平台集成微生物研究中所需要的常用计算分析工具,结合公共生物数据库和用户自有数据,利用现有的硬件资源,旨在为生物信息学研究人员提供高效、准确的生物计算和分析服务。   本文首先从系统角度阐述平台的体系结构及主要功能模块,重点阐述Web平台的设计以及在集群环境中整个系统的架构和计算任务调度算法设计。Web平台封装了以Emboss为基础的多种生物信息学计算分析工具,将公共数据库和用户自有数据相结合,为生物研究人员提供计算服务。授权用户登陆平台后,可以提交计算任务和管理自有数据,平台实现了用户自有的任务中心和数据中心。   为了提高计算效率,充分利用多服务器计算资源,本文定义了用户服务满意率的概念,提出了综合用户权值,计算任务类别,任务添加时间等因子的服务器主动调度算法。经验证,该算法可以有效地提高用户服务满意率。除此之外,考虑到系统的性能,本文阐述了提高客户端(使用AJAX和jQuery)和服务器端(使用MySQL索引)效率的策略。   通过课题的研究,本主要取得了以下成果:   1.提出一个面向生物信息学研究人员的数据密集型计算平台的架构。该架构有四层架构,包括数据服务层,系统服务层,应用服务层和用户接口层。贯穿于整个架构的是系统的安全与优化。这种架构实现了功能和数据的分离,低耦合的设计让系统具有很好的扩展性。   2.提出了一个基于用户权重的服务器任务主动调动算法,提高了用户服务满意率。根据用户提交的任务截止时间,综合计算历史、用户的权值和任务添加时间等多因子,设计了一个基于用户期望的服务器主动调度算法。定义了用户平均满意率,即“用户期望完成时间”与“任务实际完成时间”的比值。经验证,该算法对提高用户平均满意率有明显的效果。   3.实现了生物信息学数据密集型计算平台,并整合了以Emboss为基础的多种生物信息学计算分析工具。该系统封装了包括Emboss工具包在内的数百种计算工具。授权用户可以通过平台在线提交计算任务,监控任务,获取结果等。管理员可以监控任务,人员,服务器等状态。为生物领域的科学研究者提供了一个集数据、计算模型与计算资源为一体的生物计算分析平台。   整个平台基本实现了预期的目标,实现了生物数据的存储、展示、计算分析等功能,为生物领域的科学研究者提供了一个集数据、计算模型与计算资源为一体的生物计算分析平台。
其他文献
本研究分别针对实时视频编码和视频转码两种应用对实时性的不同需求提出并实现了不同层次的并行化编码算法。针对实时视频编码应用提出的并行化编码算法可以有效降低每帧图像
深空探测技术在科学、经济、军事和政治上都有着很大的意义,世界主要航天大国都在进行深空探测技术的研究,我国在“十五”、“十一五”、“十二五”计划中制定并已开展了包括月
气象图像目标分割不同于一般的图像分割,这是由于气象图像目标繁多、整体上离散不连续、但是单个目标内部是连续的特性导致的,因此,要想准确分割出感兴趣的特定目标是存在一定困
性能不对称的单指令集异构多核处理器能够很好的适应程序行为的多样性,实现资源的按需分配,避免资源的过剩与不足,从而比同构多核处理器具有更好的性能功耗比,在低功耗绿色计
本论文的研究背景是空间中心知识创新工程创新项目:空间无线自组网网络协议关键技术研究。适用于空间应用的无线自组网网络协议研究仍处于起步阶段,需要克服空间环境特有的诸多
本文针对多类别分类问题,提出了一种基于核主成分分析的投影残差分类器,首先通过与高斯核函数对应的非线性特征映射,将多个类别映射为特征空间中的特征子空间,非线性特征映射能够
本论文是中国科学院知识创新工程重要方向项目中“空间科学预先研究项目”(第一批)课题。   在微重力燃烧实验中,精确控制气体流量是燃烧实验中的一项关键技术。市场上已有
设施选址是实现科学种烟的重要环节之一,科学的设施选址可以减小烟草生产过程中资源的消耗,是精准化农业体系中的一部分。因此,如何科学地进行设施选址,如何设计更为有效、合理的
作为Apache Hadoop项目的重要组成部分,Hadoop Distributed File System(HDFS)是一种高效、并具有良好扩展性和可靠性的分布式文件系统。但是,HDFS的应用仍然存在一些阻碍:1.
随着航天事业快速发展,应用载荷的数据量越来越大,相应的地面接收处理设备也需要进行更新换代。地面设备开发需要有数据输入才能构成一个完整的系统,用以配合地面接收设备开发,进