微生物功能基因组与元基因组集成信息检索系统的研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:joseph0330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物功能基因组与元基因组的研究是目前微生物领域中的热点,其数据种类繁杂、数据量大、格式多样等特点,给研究人员使用和分析数据信息带来了一定的障碍。通过与中国科学院微生物研究所专家的密切交流与深入探讨,同时参考国际其他研究组织对基因组数据的管理、分析和开发经验,并结合微生物所自有数据的特点和需求分析,本研究课题开发完成了微生物功能基因组与元基因组数据的集成检索系统。   此系统实现了基于B/S架构的微生物功能基因组和元基因组数据访问平台,实现了大规模数据的存储和集成检索。该系统平台对辅助专家进行针对性的研究已取得显著成果。主要原因有以下几个方面:1、该系统提高了数据的集成能力,为该系统编写的ETL工具能很快地将海量数据装载入库,从而快速完成数据整合。2、在提高检索性能方面,由于数据库中数据记录数已超过千万(功能基因组数据库mis含有22张表,23855716条记录;元基因组数据库metagenome含有14张表,1918991条记录),对后台数据库进行多方面的优化是十分必要的。该系统中我们对数据库主要从MySQL server、Schema、MyISAM存储引擎、Query等方面进行了优化。其中,对索引优化查询进行了深入研究和大量测试。主要方法是对用户关心的检索字段并结合字段类型进行了20次以上的测试比较,最终在满足查询需求且过滤性最好的字段上创建索引,此外,为了满足用户片段信息的查询我们还使用了FULLTEXT索引以及必要的组合索引来进行优化,经优化后的Query语句效率上提高了百倍甚至千倍,从而提高了用户请求的响应速率。3、系统平台前台功能主要使用PHP语言完成的,为了实现数据的快速交互提高系统的整体性能,合理使用了Javascript,Ajax等技术对系统进行了性能方面的优化,从而实现了页面的局部刷新以此缩短页面响应时间。4、为了提高用户体验以及界面的友好度,实现了基因组数据的物种树、定制图表、图谱绘制等可视化展示,并定制了适用于FLEX特点的MXML规范,以此来提高可视化绘图的效率。   本系统已为微生物所环境元基因组项目实现了数据存储、检索、展示、分析等功能,并可同时为其它高通量的生物数据提供存储分析服务。同时该系统为大规模化的元基因组数据存储分析和进一步研究提供了借鉴基础和参考依据。
其他文献
近年来,辅助盲人使用计算机的软硬件技术取得了长足的进展,盲人使用计算机已经越来越方便。然而,还是有一些因素使得我国盲人无法和明眼人一样熟练便捷的使用计算机,其中,输入汉字
随着计算机和网络技术的迅猛发展,传统的工业生产正逐渐向以计算机为主导的自动化控制生产转变。在煤炭行业,发展以计算机自动化控制为核心的采煤工艺和监控技术,是近年来煤
“存储墙”问题一直是制约处理器性能的关键瓶颈,计算与存储的速度鸿沟导致CPU的运算能力因为需要等待存储器的数据而大量虚耗。在片上多核的处理器环境中,多个处理器核对共享
由于易用性和良好的扩展性,google提出的MapReduce编程模型被广泛应用于各类大规模数据处理和分析项目中。在实际应用中,一个分析项目往往需要分解成多个MapReduce作业,且这些计
多核已经成为处理器设计的主流技术,应用软件要想获得性能提升也必须实施并行化,并行编程也就成为了广大程序员不可回避的问题。   传统的并行计算多集中在高性能数值计算领
快速傅里叶变换(FFT)是许多信号处理系统的核心算法,不同的应用场合对FFT处理器有不同的性能要求。本文根据项目的总体设计要求,对快速傅里叶变换的相关技术进行分析研究,并结合
条烟装箱是卷烟生产的最后一道工序,在条烟装箱时,装箱机有时会工作混乱,特别是在条打包机生产流量较大或来料不够的情况下,装箱机的工作有可能会不正常,从而出现缺条、缺排或箱内
蛋白质序列鉴定是人类了解蛋白质的第一步,随着基于串联质谱鉴定的蛋白质鉴定技术日趋成熟,高通量、大规模的蛋白质序列鉴定已不再是难题;蛋白质交联技术建立了从蛋白质序列到蛋
随着计算技术和网络技术的飞速发展,IT基础设施中的计算、存储等各类资源都通过网络聚合在一起。这种基于网络的计算环境通常直接服务于开放的、大规模的用户群体,而用户的需求
本文研究了将多个不同的监督学习模型和非监督学习模型进行合并的问题,并开发了数据挖掘云服务平台COMS(Cloud Oriented Mining System)。   现有的对多模型合并问题的研究