基于Jbrowse的基因组数据集成及索引优化

来源 :厦门大学 | 被引量 : 0次 | 上传用户:coolboywcp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组计划对物种遗传信息研究的发展,基因组注释、短序列比对分析已成为生物信息学研究的热点问题。为此,需要建立能够集成并可视化包含基因组注释、短序列比对等基因组数据的综合平台,采用相关的计算机技术有效管理数据,并能使生物学家在web上访问和使用。JBrowse等基因组浏览器将基因组数据在浏览器中以简单、直观方式综合查看已经成为解决此类问题的有效途径。JBrowse以其基于AJAX的交互操作、多轨道浏览、采用索引技术等多个特点成为使用广泛的基因浏览器之一。为了提高JBrowse的平台通用性和检索效率,本文基于该平台进行数据集成及数据检索改进,集成基因组注释和比对短序列并实现基因组数据可视化的综合浏览,优化JBrowse对基因组数据的索引进而提高平台的检索性能。针对上述内容本文所做的研究工作包含以下两个部分:  (1)本文研究了基因组数据的共同特征,从数据集成的角度出发,基于JBrowse框架提出一个基因组异构数据整合、转换和集成的流程。通过分析现有基因浏览器的特点,本文更改了配置操作并设计扩展了数据源转换接口,使平台支持生物网络数据库、基因注释及序列比对信息数据文件等各种数据源的灵活接入,针对不同的数据源文件格式,创建了相应文件转换脚本,将其转换为统一的结构化数据,使生物学家能够在一个平台对同一物种不同来源及格式的基因组数据进行集成综合浏览。  (2)本文研究了平台功能及性能,从数据检索的角度出发,基于Tabix索引对JBrowse的数据检索模块进行优化。本文建立了高效的索引模型,提高了平台对基因组数据的检索效率,降低了查询调用次数并减少数据读取量。本文还针对Tabix索引在比对短序列数据检索时的不足提出按固定序列数装箱的改进方法,为Tabix索引的装箱设定上限,减少在短序列覆盖率较高区域所增加的检索时间,进而提高平台访问数据的性能。  本文的研究实现了对基因组数据的转换、整合、可视化以及对数据检索的优化,生物学研究者可以使用平台定制基因组数据或下载网络基因组数据,有利于他们进行生物学分析和解释,对发现数据间的关系或者进行功能预测有着十分重要的意义。
其他文献
随着现代微分几何理论的发展,非线性系统控制理论取得了较快地发展,很多好的非线性控制思想被提出,为解决一些非线性控制问题提供了理论依据。作为非线性系统的一类主要研究
近年来,城市轨道交通运营里程不断增加、线网规模快速增长。随之而来的是客流强度的平稳增长以及客运量的不断增加,同时也使城市轨道交通系统节能降耗面临的形势日益严峻。列
计算机仿真技术随着信息技术及电子技术的飞速发展以及计算机技术的普遍应用越来越引起人们的关注。同时随着港口日趋繁忙和航运业的发展,对船舶航行的经济型和安全性要求不断
摘要:车标作为车辆的重要辅助特征,特点鲜明,可识别性强,并且不易随意变动,因此车标识别技术作为智能交通系统(Intelligent Transportation System,ITS)的关键技术之一,对其
目前,各级政府和职能部门都十分重视煤矿安全生产,矿井生产安全也一直是人们十分关注的问题。因此在地面监控中心实时观测井下人员的位置和信息,实现对下井人员的考勤和定位,
随着化石能源的快速消耗和环境污染问题的增多,新能源产业被国际社会的关注也越发增加。风能和太阳能作新兴能源产业两大重点也开始飞速发展,而其发电过程中的问题也日益受到
随着科学技术水平的不断提高,工业流水线的自动化程度也越来越高。在薄膜加工生产线上的收卷、放卷、传送、拼接、分切、贴合等操作已基本实现自动化。卷筒材料在行进过程中,
滑模变结构控制出现于上个世纪中期,经历了六十余年发展,该理论已经越来越成熟。这种控制方法的优点是系统对于参数的摄动和外部干扰有着优良的鲁棒性,缺点是系统存在抖震。抖震
对于不能得到准确系统方程的复杂系统,我们无法通过传统的故障诊断方法进行管理监控。但同时,系统运行过程中时刻产生大量反映系统运行机理和运行状态的数据,如何利用这些数
随着视频监控技术在人们生活中日益广泛的应用,视频监控技术受到了很多科研工作者的广泛研究。其中,图像预处理、运动目标检测、目标分类以及运动目标跟踪是完成视频监控的主