论文部分内容阅读
微生物功能基因组与元基因组的研究是目前微生物领域中的热点,其数据种类繁杂、数据量大、格式多样等特点,给研究人员使用和分析数据信息带来了一定的障碍。通过与中国科学院微生物研究所专家的密切交流与深入探讨,同时参考国际其他研究组织对基因组数据的管理、分析和开发经验,并结合微生物所自有数据的特点和需求分析,本研究课题开发完成了微生物功能基因组与元基因组数据的集成检索系统。
此系统实现了基于B/S架构的微生物功能基因组和元基因组数据访问平台,实现了大规模数据的存储和集成检索。该系统平台对辅助专家进行针对性的研究已取得显著成果。主要原因有以下几个方面:1、该系统提高了数据的集成能力,为该系统编写的ETL工具能很快地将海量数据装载入库,从而快速完成数据整合。2、在提高检索性能方面,由于数据库中数据记录数已超过千万(功能基因组数据库mis含有22张表,23855716条记录;元基因组数据库metagenome含有14张表,1918991条记录),对后台数据库进行多方面的优化是十分必要的。该系统中我们对数据库主要从MySQL server、Schema、MyISAM存储引擎、Query等方面进行了优化。其中,对索引优化查询进行了深入研究和大量测试。主要方法是对用户关心的检索字段并结合字段类型进行了20次以上的测试比较,最终在满足查询需求且过滤性最好的字段上创建索引,此外,为了满足用户片段信息的查询我们还使用了FULLTEXT索引以及必要的组合索引来进行优化,经优化后的Query语句效率上提高了百倍甚至千倍,从而提高了用户请求的响应速率。3、系统平台前台功能主要使用PHP语言完成的,为了实现数据的快速交互提高系统的整体性能,合理使用了Javascript,Ajax等技术对系统进行了性能方面的优化,从而实现了页面的局部刷新以此缩短页面响应时间。4、为了提高用户体验以及界面的友好度,实现了基因组数据的物种树、定制图表、图谱绘制等可视化展示,并定制了适用于FLEX特点的MXML规范,以此来提高可视化绘图的效率。
本系统已为微生物所环境元基因组项目实现了数据存储、检索、展示、分析等功能,并可同时为其它高通量的生物数据提供存储分析服务。同时该系统为大规模化的元基因组数据存储分析和进一步研究提供了借鉴基础和参考依据。