论文部分内容阅读
随着人类基因组计划和各种模式生物基因组计划的相继完成,生物信息学的研究重点已经从生物数据的积累转变为对生物数据的整合处理,以异构生物数据整合为核心的生物信息分析系统的构建,逐渐成为生物信息学研究的热点。
近年来,棉花基因组研究产生了海量的生物数据。国际上陆续建立了CMD、CottonDB、Tropgene DB等关于棉花的专业数据库系统,用于对这些数据进行存储和分析。但是这些数据库提供的分析服务比较单一,比如仅限于BLAST和CMap等服务,且不能扩展功能,因此不能满足个性化研究的需求。更重要的是,这些数据库通常只包含与棉花相关的生物数据,没有采用有效的手段,将其它异构的生物数据库,比如GenBank、SWISS-PROT等,进行生物学语义层面的有机集成,因此不能进行物种之间的比较分析。在国内,以南京农业大学棉花所为代表的棉花研究机构,其研究的遗传图谱及其它数据被一些国外的数据库所收录,自己至今没有一个比较完整的棉花生物信息数据库及其应用分析系统。因此,在国内率先构建一个语义统一的,分析功能强大的棉花生物信息分析系统,用于指导棉花分子设计育种,具有重要的意义。
本论文进行以下几个方面的研究工作:
第一,对生物信息分析系统的内涵,国内外棉花生物信息数据库等进行综述性研究,指出现有研究的不足之处,并引入GO(Gene Ontology)的概念和方法,提出以GO为核心构建棉花生物信息分析系统的设想。
第二,从本体的基本概念出发,重点研究GO的内部结构及其在生物信息学中的应用。通过研究GO术语间语义相似性度量方法,指出GO术语间语义相似性的度量是解决生物数据语义异构问题的重要方法。
第三,通过分析序列分析软件开发的必要性,并参考已有生物信息软件包的组织结构,采用perl语言,根据棉花生物信息分析工作的实际需要,进行序列分析软件包的设计与开发。软件包涵盖序列获取和筛选程序,EST-SSR分子标记开发程序,同源性分析程序,功能注释程序等,本论文只进行部分软件的开发。
第四,基于B/S模式,设计并实现一个基于GO语义模型的棉花生物信息分析系统。该系统通过GO术语与被GO注释的条目之间的对应关系,在生物学语义上统一了外部数据库,并在此基础上提供基于GO的功能注释,相似性搜索、文献检索等功能完善的分析服务。
本论文利用GO和关系数据库对影响棉花生长发育、产量、质量、抗性等方面的基因进行跨物种比较分析的方法,是一种比较新颖的思路。基于GO的棉花生物信息分析系统的设计与实现,在国内棉花生物信息数据库建设领域,具有首创性,对棉花分子设计育种具有积极的指导意义。