论文部分内容阅读
二十一世纪是生命科学的世纪,生物信息学已经成为当今最重要、最前沿的科学发展领域之一,已经在基因序列数据的获取、处理、分析和管理等许多方面得到广泛应用。随着人类基因组计划以及各种模式生物基因组计划的顺利实施,产生了大量的基因组数据,这些数据的出现促进了生物信息数据库及相应的生物信息分析平台的快速发展。棉花作为纤维的重要来源,是一种世界性的重要的经济作物,在国民经济生产和物质生活中发挥着重要的作用。同时,棉花也是一种优秀的模式植物,它的研究对于解答基因组进化学、植物发育学等很多基础问题有很大的参考和借鉴作用。因而近年来,棉花基因组研究进展十分迅速,许多棉花重要农艺性状的基因和QTL得到发掘和精确定位,与棉花研究相关的各方面实验数据也都随之急剧增加。利用生物信息学手段来快速、有效的处理分析这些海量的数据就显得越来越为重要。然而,目前的棉花的生物信息数据大部分都在国外的综合生物信息数据库中,给研究者们访问和使用这些数据带来不便。因此,构建一个本地化的专门的棉花生物信息平台具有重要的意义。本文首先对生物信息学目前的研究内容与方向进行了简要的阐述,介绍了当前世界上三大主要的生物信息学数据库,并概括了一些当前网络上比较流行和常用的农业生物信息学网站及相关网络资源。其次,对棉花生物信息平台实现过程中所涉及到的基于Lucene的全文检索技术、BLAST序列比对算法和信息可视化等关键技术进行了深入研究和详细介绍。再次,深入研究和了解目前国际上广为应用的各种综合生物信息学数据库的有关功能和特点,结合棉花生物信息数据的特殊性,在进行了详细的概念设计和详细设计的基础上,以MySQL作为后台数据库,在Linux操作系统下构建了棉花生物信息数据库。该数据库收集了本校及国外综合生物信息数据库中棉花的Gene、SSRs、QTL、Markers等生物信息数据及相关的新闻、文献等资料。最后,借鉴了国内外相关系统设计思想,结合该平台的可能用户群体的实际需求,设计并实现了棉花生物信息平台。该平台集合了多种生物信息分析服务,实现了基于Web的本地化BLAST序列同源比对,其检索方式、参数选择、结果格式与NCBI网站上的类似,弥补了综合数据库中比对缺乏针对性等缺点;提供了对多种生物信息的关键词检索和对相关文献的全文检索途径,为用户查找信息提供方便;利用CMap工具,实现了棉花图谱信息的可视化,将棉花的物理图谱和序列之间的图谱比较形象化的表现出来。总之,棉花生物信息平台的建立及其应用,对棉花生物信息的保存、检索、分析及有效利用提供了帮助,对进一步生物实验和育种有重要的指导意义。