论文部分内容阅读
随着基因组计划对物种遗传信息研究的发展,基因组注释、短序列比对分析已成为生物信息学研究的热点问题。为此,需要建立能够集成并可视化包含基因组注释、短序列比对等基因组数据的综合平台,采用相关的计算机技术有效管理数据,并能使生物学家在web上访问和使用。JBrowse等基因组浏览器将基因组数据在浏览器中以简单、直观方式综合查看已经成为解决此类问题的有效途径。JBrowse以其基于AJAX的交互操作、多轨道浏览、采用索引技术等多个特点成为使用广泛的基因浏览器之一。为了提高JBrowse的平台通用性和检索效率,本文基于该平台进行数据集成及数据检索改进,集成基因组注释和比对短序列并实现基因组数据可视化的综合浏览,优化JBrowse对基因组数据的索引进而提高平台的检索性能。针对上述内容本文所做的研究工作包含以下两个部分: (1)本文研究了基因组数据的共同特征,从数据集成的角度出发,基于JBrowse框架提出一个基因组异构数据整合、转换和集成的流程。通过分析现有基因浏览器的特点,本文更改了配置操作并设计扩展了数据源转换接口,使平台支持生物网络数据库、基因注释及序列比对信息数据文件等各种数据源的灵活接入,针对不同的数据源文件格式,创建了相应文件转换脚本,将其转换为统一的结构化数据,使生物学家能够在一个平台对同一物种不同来源及格式的基因组数据进行集成综合浏览。 (2)本文研究了平台功能及性能,从数据检索的角度出发,基于Tabix索引对JBrowse的数据检索模块进行优化。本文建立了高效的索引模型,提高了平台对基因组数据的检索效率,降低了查询调用次数并减少数据读取量。本文还针对Tabix索引在比对短序列数据检索时的不足提出按固定序列数装箱的改进方法,为Tabix索引的装箱设定上限,减少在短序列覆盖率较高区域所增加的检索时间,进而提高平台访问数据的性能。 本文的研究实现了对基因组数据的转换、整合、可视化以及对数据检索的优化,生物学研究者可以使用平台定制基因组数据或下载网络基因组数据,有利于他们进行生物学分析和解释,对发现数据间的关系或者进行功能预测有着十分重要的意义。