论文部分内容阅读
随着高速测序技术的迅猛发展和众多物种的全基因组测序计划的实施,基因组数据呈海量增长趋势。大规模的全基因组数据的功能分析需要新的算法、软件和强大的计算平台的支持。本文首先针对比较基因组学研究现状,总结了比较基因组学应用软件中存在的问题,这些问题主要表现在不同软件有各自特殊的数据输入输出格式,且常常采用不同的算法,各自侧重点也不同;此外有些只能在特定的操作系统下运行,大多数软件设置的参数比较多,一般生物学家往往难于掌握,结果同样的序列用不同的软件得到的结果也不同。而特别值得指出的是,一个全基因组数据往往都非常庞大,尤其是进行多重全基因组比对时,需要耗费大量的计算时间和存储空间,个人计算机往往不能满足要求。针对上述问题开发了面向生物学家的比较基因组学分析平台,平台采用浏览器/服务器(Browser/Server, B/S)网络构架,用户可以在个人计算机上通过web浏览器,将基因组数据提交到相应的web服务器,同时选择参数,服务器进行分析和处理后,将结果返回到用户浏览器或直接发送到用户邮箱。服务器的硬件平台为一台装有Linux操作系统的高性能计算机(PowerCluster8000IN),网络服务器为Apache HTTP,平台数据管理则采用MySQL数据库,并用Perl语言做后台的开发工具,HTML编写前台网页。平台可以接受fasta、multi-fasta、genebank等格式的数据文件和用户直接提交的序列作为输入数据。最后数据分析的结果以表格、文本或图像形式返回用户平台。平台的主要功能有:(1)全基因组比较分析:寻找基因组间的同线性区域,基因组重组(基因插入/缺失、重复、重排和水平转移),单核苷酸突变和拷贝数变异。(2)基因组碱基组成成分分析,基因预测,tRNA预测,rRNA预测和重复序列搜索。(3)动态显示基因组比对的同线性和基因组重组图形和插入删除结果,用户可以对图像进行放大、缩小和平移等操作。基于所构建的平台,本文对10种新型甲型流感病毒和33个结核分支杆菌基因组及相关菌株的全基因组进行了比较基因组学研究。对新型甲型流感病毒株作全基因组同源性分析,表明PB1基因可能来自于人H3N2,PB2、PA基因可能来自于禽类H3N2,而HA、NS基因可能来自于猪H1N1。对结核分枝杆菌以及相关菌株等的全基因组序列的同线性区域、重复序列和单核苷酸多态性进行比较基因组学研究分析,发现插入/缺失和重复序列是导致结核分枝杆菌菌株基因组差异的主要来源。这些应用研究验证了平台的有效性。